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本 书 从 Python 的 安装 开始 ， 详 细 讲解 了 Python 从 简单 程序 延伸 到 Python 网 络 怜 虫 的 全 过 程 。 本 书 从 实 
战 出 发 ， 根 据 不 同 的 需求 选取 不 同 的 聆 虫 有 针对 性 地 讲解 了 几 种 Python WER. 

本 书 共 8 章 ， 涵 盖 的 内 容 有 Python 语言 的 基本 语法 、Python 常用 IDE 的 使 用 、Python 第 三 方 模块 的 导 
入 使 用 、Python 怜 虫 常 用 模块 、Scrapy MEH, Beautiful Soup MEH, Mechanize 模拟 浏览 器 和 Selenium 模拟 
浏览 器 。 本 书 所 有 源 代码 已 上 传 网 盘 供 读者 下 载 。 

本 书 内 容 丰 富 ， 实 例 典 型 ， 实 用 性 强 。 适 合 Python 网 络 疏 虫 初学 者 、 数 据 分 析 与 挖掘 技术 初学 者 ， 以 
及 高 校 及 培训 学 校 相关 专业 的 师 生 阅读 。 
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计算 机 技术 飞速 发 展 ， 人 们 对 计算 机 使 用 技能 的 要 求 也 越 来 越 高 。 在 编写 软件 时 ， 大 家 既 
希望 有 超 高 的 效率 ， 又 希望 这 门 语言 简单 易 用 。 这 种 鱼 与 能 掌 缘 得 的 要 求 的 确 很 高 ，Python 
编程 语言 恰好 符合 这 么 苛刻 的 要 求 。 

Python 的 执行 效率 仅 比 效 率 之 王 C 略 差 一 筹 ， 在 简单 易 用 方面 Python 也 名 列 三 甲 。 可 以 
说 Python 在 效率 和 简单 之 间 达 到 了 平衡 。 另 外 ，Python 还 是 一 门 胶水 语言 ， 可 以 将 其 他 编程 
语言 的 优点 融合 在 一 起 ， 达 到 1+1>2 的 效果 。 这 也 是 Python 如 今 使 用 人 数 越 来 越 多 的 原因 。 

Python 语言 发 展 迅速 ， 在 各 行 各 业 都 发 挥 独特 的 作用 。 在 各 大 人 企业、 学校、 机关 都 运行 
着 Python 明星 程序 。 但 就 个 人 而 言 ,运用 Python 最 多 的 还 是 网 络 候 虫 ( 这 里 的 胞 虫 仅 涉及 从 
网 页 提取 数据 ， 不 涉及 深度 、 广 度 算法 爬虫 搜索 )。 在 网 络 上 经 常 更 新 的 数据 ， 无 须 每 次 都 打 
开 网 页 浏览 ， 使 用 息 虫 程序 ， 一 键 获取 数据 ， 下 载 保存 后 分 析 。 考 虑 到 Python EREN E 
的 资料 虽 多 , 但 大 多 都 不 成 系统 , 难以 提供 系统 有 效 的 学 习 。 因 此 笔者 抛砖引玉 ,编写 了 这 本 
HX Python 网 络 朴 虫 的 书 ， 以 供 读者 学 习 参 考 。 

Python 简单 易学 ,Python 疏 虫 也 不 复杂 。 只 需要 了 解 了 Python 的 基本 操作 即 可 自行 编写 。 
本 书 中 介绍 了 几 种 不 同类 型 的 Python 候 虫 ， 可 以 针对 不 同情 况 的 站 点 进行 数据 收集 。 


本 书 特色 


@ ”附带 全 部 源 代码 


为 了 便于 读者 理解 本 书 内 容 ， 作 者 已 将 全 部 的 源 代码 上 传 到 网 络 , 供 读 者 下 载 使 用 。 读 者 
通过 代码 学 习 开发 思路 ， 精 简 优化 代码 。 


© 涵盖 了 Linux&Windows 上 模块 的 安装 配置 
本 书包 含 了 Python 模块 源 的 配置 、 模 块 的 安装 ， 以 及 常用 IDE 的 使 用 。 
@ ”实战 实例 


通过 常用 的 实例 ， 详 细 说 明 网 络 扑 虫 的 编写 过 程 。 


Python Palen se Sci 
本 书 结构 


本 书 共 8 章 ， 前 面 4 章 简单 地 介绍 了 Python 的 基本 用 法 和 简单 Python 程序 的 编写 。 第 5 
章 的 Scrapy 疏 虫 框架 主要 针对 一 般 无 须 登 录 的 网 站 , 在 爬 取 大 量 数据 时 使 用 Scrapy 会 很 方便 。 
第 6 章 的 Beautiful Soup 怜 虫 可 以 算 作 怜 虫 的 “个 人 版 ”Beautiful Soup MERE HE X — e 
取 数 据 比 较 少 的 ， 结 构 简 单 的 网 站 。 第 7 章 的 Mechanize 模块 ， 主 要 功能 是 模拟 浏览 器 。 它 的 
作用 主要 是 针对 那些 需要 登录 验证 的 网 站 。 第 8 章 的 Selenium 模块 ， 主 要 功能 也 是 模拟 浏览 
器 ， 它 的 作用 主要 是 针对 JavaScript 返回 数据 的 网 站 。 


本 书 读者 与 作者 

© Python RAR kI 
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本 书 代码 下 载 


本 书 代码 下 载 地 址 〈 注 意 数字 和 字母 大 小 写 ) 为 http://pan.baidu.com/s/1miTmq5y。 
如 果 下 载 有 问题 ， 请 电子 邮件 联系 booksaga@163.com， 邮 件 主题 为 “网 络 爬 虫 代码 ” 


编 者 
2016 4F 11 H 


EE 1 


si 


12 


1.3 


ES 
he | 
1.1.2 Python 的 现状 . 
1.1.3 Python 的 应 用 . 
Python 开发 环境 配置 .. 
i 4 
a tL 9 
1.2.3 Linux 下 安装 Python … 
1.2.4 Linux 下 安装 配置 pi 
1.2.5 ”永远 的 开始 : hello world 














Rythme en ee dd Gi Muesseavineds 21 


2.1 


22 


a edn ll 
2.1.2 FRR 
2.1.3 列表 .… 
0 OR OOOO ETON DE 
2.2.1 条 件 语句 一 if else 
2.2.2 ”有 限 循环 一 一 for 三 
BEDS’ dt 43 














Python 网 络 礁 虫 实战 


第 3 章 


2.2.4 PIE itinga: break sii 45 
pA a E N AI E 47 
2.2.6 ”导入 模块 一 一 import 
2.3 ”函数 和 类 .… 
2.3.1 函数 
2.4 Python 代码 格式 
2.4.1 Python 代码 缩 进 . ia 
AD: Pyha py 5S SMU bai hase cot OCR 66 
243 Pyton {UBE cssnnscscnsconsensosssosnsnenaconsonnuressnsasennorecvescssnosossnesacnisosnsnsenssvennssace OB 















25 





EE Cine Tipo a a 73 


简单 的 Python 脚本 
3.1 九 九 乘法 表 
3.1.1 Project 分 析 
3 
3.2” 斐 波 那 契 数列 
3.2.1 Project 分 析 
3.2.2 Project 实施 .…. ee 
3.3.1 Project 4} #f.... 
3.3.2 Project 实施 .… 
3 dra 
DAM Pjeter 
3.4.2 project 实施 
3.5 ”本章 小 结 

















Bythan 民 虫 宫 用 模 现 ,0 负 86 
i TS MAD BRE hac sec ccc aE EEREN EARRAN 86 
4.1.1 urllib2 请 求 返回 网 页 
4.1.2 aurllib2 使 用 代理 访问 网 页 .. 








第 5 章 


4.2 


43 


44 





.ll 
Dy Obi SRE —— Min A wn sinus cec che E eh cenbP huey Pnan 95 
42.1 简 述 logging 模块 … 
4.2.2 自 定义 模块 myLog. 
其 他 有 用 模块 
BSA) o E CERA a aaa 102 
4.3.2 sys 模块 (系统 参数 获取 ) 
4.3.3 time 模块 〈 获 取 时 间 信 息 ) … 











Saal 和 Ea 


Sil 


5.2 


5.3 


5.4 


55 


5.6 


5.1.1 Windows 下 安装 Scrapy 环境 .. 
5.1.2 Linux 下 安装 Scrapy 本 
So 114 
5.2.1 XPath 选择 器 
5.2.2 CSS 选择 器 .…. ie 
Scrapy ERK R—: 今日 影视 
5.3.1 创建 Scrapy 项 目 … 
5.3.2 Scrapy 文件 介绍 
5.3.3 Scrapy 爬虫 编写 
Scrapy ME Asche =: 天 气 预报 
541 项 目 准备 P 
SU 131 
543 SORTEM P] joon iiis i 138 
5.4.4 数据 存储 到 MySQL .… 
Scrapy 疏 虫 实战 三 : 获取 代理 
5.5.2 ”创建 编辑 Scrapy MEH . 
5.5.3 Z^ Spider. 
5.5.4 ”处 理 Spider 数据 . ” 
Soapy ERLA: PRF iisen iaaa aiaia TAAA AAAA Eia 159 













































Python MERKAR 


第 6 章 


VI 


和 .7 


5.8 


SS 160 
5.6.3 Scrapy 项 目 中 间 件 一 一 添加 headers... 
5.6.4 Scrapy 项 目 中 间 件 一 一 添加 proxy... 
scrapy 爬虫 实战 五 : 朴 虫 攻防 is 
SPI SE 167 
5.7.2 封锁 间隔 时 间 破 解 . 
5.7.3 封锁 Cookies 破解 . 
AR 171 
下 








BBSatti Se 人 肥大 


6.1 


6.2 


6.3 


6.4 


6.5 


ES 178 
6.1.1 Windows F 2248 Beautiful SOB tn 178 
AR 179 
6.1.3 ”最 强大 的 IDE—Eclipse 
BeautifulSoup 解析 器 es 
ECR 188 
6.2.2 xml 解析 器 安装 . 
6.2.3 使 用 bs4 过 滤器 .. 
bs4 爬虫 实战 一 : 获取 百度 贴吧 内 
6.3.2 项目 实施 … 
6.3.3 ”代码 分 析 …. 


















Ce TO 206 
”ON A ALAE EE 207 






bs4 MEHR: 获取 双色 球 中 奖 信 
6.4.1 目标 分 析 .… 
6.4.2 项 目 实 施 .… 
GAS: BEBE itech cc len i 
6.4.4 
bs4 ME R=: 获取 起 
6.5.1 目标 分 析 
5 










第 7 章 


6.6 


6.7 


6.8 


Mechanize 模拟 浏览 器 


7A 


12 


T3 


74 


zS 


Selenium 模拟 浏览 器 .…. 


8.1 


和 
6.5.4 ”代码 分 析 
bs4 MERKRA: 获取 电影 信息 . 
6.6.1 





6.6.2 
6.6.3 
6.6.4 

bs4 ERKE: 获取 音 悦 台 榜 单 . 
5 月 款 从 证 生生 
7 en eee. 
ERS MR T eara canna nibs conde aaa 
ROT Ret 








安装 Mechanize 模块 
7.1.1 Windows 下 安装 Mechanize 








TES Dinis F Mohini ni 

nn LAO 
7.2.1 Mechanize 百度 
7.2.2 Mechanize 光 猫 F460 .. 
Mechanize 实 站 一 : 获取 Modem 
Re 254 
Mechanize 实战 二 : 获取 音 悦 
7.4.1 登录 原理 . 
7.4.2 ”获取 Cookie 的 方法 . 
和 
EE 266 





















安装 Selenium 模块 
8.1.1 Windows 下 安装 Selenium 模块 .. 
1s Ti Pe See Selanne BA a 272 








Vil 





Python MERKAR 


Vill 


8.2 


8.3 


8.4 


8.5 


8.6 


So eA A 272 
SO E E EE E E A EEE T ESI ET A 272 
8.2.2 Windows 下 安装 PhantomJS 
8.2.3 Linux 下 安装 PhantomJS. 
Selenium&PhantomJS 抓 取 数据 .. A 
ka 2 
8.3.2 ”获取 搜索 结果 
83.3 ”获取 有 效 数据 位 置 . 














RSA, E a E CET E L ARE A E EA E AAO A E A 284 
Selenium&PhantomJS 实战 一 :获取 代理 285 


8.4.1 ”准备 环境 .…. 
8.4.2 MERR .... 














BAS: ON ese rie eee ees 
Selenium&PhantomJS 实战 二 : 漫画 爬虫 

8.5.1 准备 环境 

8.5.2 ”爬虫 代码 .… is 
RS 294 


1 章 


4Python 环 境 配 置 > 


为 什么 选择 Python KS PY 24 NE He ? 

众所周知 Python 的 速度 并 不 是 最 快 的 ， 比 不 上 Java， 比 不 上 C++， 更 比 不 上 传说 中 的 速 
度 效率 之 王 C 了 。 学 习 资 料 的 完备 也 不 在 三 甲 之 内 ， 市 面 上 讲解 C&C++ 的 书籍 绝对 是 
Python 的 几 倍 甚至 几 十 倍 。 使 用 的 人 数 也 不 是 最 多 ， 比 不 上 Java、C、C++。 

那么 ， 为 什么 会 选择 Python? 

首先 是 它 简单 易学 。 简 单 到 没有 学 过 任何 编程 语言 的 人 稍微 看 下 资料 ， 再 看 几 个 示例 就 
可 以 编写 出 可 用 的 程序 ， 其 次 它 是 一 门 解释 型 编程 语言 ， 编 写 完毕 后 可 直接 执行 ， 无 须 编 
译 ， 发 现 Bug 后 立即 修改 ， 省 下 了 无 数 的 编译 时 间 ; 还 有 它 的 代码 重用 性 高 ， 可 以 把 包含 某 
个 功能 的 程序 当成 模块 代入 其 他 程序 中 使 用 ， 因 而 Python 的 模块 库 庞大 到 恐怖 ， 几 乎 是 无 所 
Ma; 最 后 就 是 因为 它 的 跨 平台 性 ， 几 乎 所 有 的 Python 程序 ， 都 可 以 不 加 修改 地 运行 在 不 同 
的 操作 平台 ， 都 能 得 到 同样 的 结果 。 这 么 多 的 优点 都 集中 在 这 个 语言 中 ， 因 此 最 好 的 选择 就 
是 Python。 











Python 简介 


了 解 一 门 语言 ， 我 们 先 从 它 的 历史 说 起 。Python 的 应 用 越 来 越 广泛 ， 它 最 初 是 用 来 做 什 
么 用 的 ， 之 后 又 如 何 发 展 的 ， 了 解 这 些 ， 我 们 就 更 能 了 解 Python. 

















1.1.1 ”Python 的 历史 由 来 


Python 是 一 种 开源 的 面向 对 象 的 脚本 语言 ， 它 起 源 于 1989 年 末 ， 当 时 ，CWI《〔〈 阿 姆 斯 
特 丹 国家 数学 和 计算 机 科学 研究 所 ) 的 研究 员 Guido van Rossum 需要 一 种 高 级 脚本 编程 语 
言 ， 为 其 研究 小 组 的 Amoeba 分 布 式 操作 系统 执行 管理 任务 。 为 创建 新 语言 ， 他 从 高 级 数学 
语言 ABC CALL BASIC CODE) 汲取 了 大 量 语法 ， 并 从 系统 编程 语言 Modula-3 借鉴 了 错误 
处 理 机 制 。Van Rossum 把 这 种 新 的 语言 命名 为 Python (大 蟒蛇 ) 一 一 来 源 于 BBC 当时 正在 
热 播 的 喜剧 连续 剧 Monty Python。 

ABC 是 由 Guido 参加 设计 的 一 种 教学 语言 。 就 Guido 本 人 看 来 ，ABC 这 种 语言 非常 优 
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美和 强大 ， 是 专门 为 非 专 业 程序 员 设 计 的 。 但 是 ABC 语言 并 没有 成 功 ， 究 其 原因 ，Guido 认 
为 是 非 开放 造成 的 。Guido 决心 在 Python 中 避免 这 一 错误 。 同时， 他 还 想 实 现在 ABC 中 内 
现 过 但 未 曾 实现 的 东西 。 

就 这 样 ，Python 在 Guido 手中 诞生 了 。 可 以 说 ，Python 是 从 ABC 发 展 起 来 ， 并 且 结 合 
T Unix shell 和 C 的 习惯 。Python 源 代码 遵循 GPL (GNU General Public License) 协议 。 所 
以 任何 个 人 用 户 都 可 以 免费 使 用 。 


1.1.2 Python 的 现状 

Python 于 1991 年 初 公开 发 行 ， 由 于 功能 强大 和 采用 开源 方式 发 行 ，Python 发 展 得 很 
快 ， 用 户 越 来 越 多 ， 形 成 了 一 个 强大 的 社区 力量 。2001 年 ，Python 的 核心 开发 团队 移师 
Digital Creations 公司 ， 该 公司 是 Zope (一 个 用 Python 编写 的 Web 应 用 服务 器 ) 的 创始 者 。 
大 家 可 到 http:Wwww.python.org/ 上 了 解 最 新 的 Python 动态 和 资料 。 

WS, Python 已 经 成 为 最 受 欢 迎 的 程序 设计 语言 之 一 。2011 年 1 月 ， 它 被 TIOBE 编程 
语言 排行 榜 评 为 2010 年 度 语言 。 自 从 2004 年 以 后 ，Python 的 使 用 率 是 呈 线 性 增长 。 





1.1.3 Python 的 应 用 
Python 应 用 广泛 ， 特 别 适 用 与 以 下 几 个 方面 。 


系统 编程 : 提供 API ( Application Programming Interface， 应 用 程序 编程 接口 ) ， 能 
方便 地 进行 系统 维护 和 管理 ，Linux 下 标志 性 语言 之 一 ， 是 很 多 系统 管理 员 理 想 的 
编程 工具 。 

图 形 处 理 : 有 PIL、Tkinter 等 图 形 库 支持 ， 能 方便 进行 图 形 处 理 。 

数学 处 理 : NumPy 扩展 提供 大 量 与 许多 标准 数学 库 的 接口 。 

文本 处 理 : Python 提供 的 re 模块 能 支持 正则 表达 式 ， 还 提供 SGML、XML 分 析 模 
块 ， 许 多 程序 员 利 用 Python 进行 XML 程序 的 开发 。 

数据 库 编 程 : 程序 员 可 通过 遵循 Python DB-API (数据 库 应 用 程序 编程 接口 ) 规范 
的 模块 与 Microsoft SQL Server, Oracle, Sybase, DB2, MySQL, SQLite 等 数据 库 
通信 。Python 自 带 有 一 个 Gadfly 模块 ， 提 供 了 一 个 完整 的 SQL 环境 。 

网 络 编程 : 提供 丰富 的 模块 支持 sockets 编程 ， 能 方便 快速 地 开发 分 布 式 应 用 程序 。 
很 多 大 规模 软件 开发 计划 ， 例 如 Zope, Mnet 及 BitTorrent. Google 都 在 广泛 地 使 用 
"Ss 

Web 编程 : 应 用 的 开发 语言 ， 支 持 最 新 的 XML 技术 。 

多 媒体 应 用 : Python 的 PyOpenGL 模块 封装 了 OpenGL 应 用 程序 编程 接口 ， 能 进行 
二 维和 三 维 图 像 处 理 。PyGame 模块 可 用 于 编写 游戏 软件 。 

PYMO 引擎 : PYMO 全 称 为 Python Memories Off， 是 一 款 运行 于 Symbian S60V3、 
Symbian3 、S60V5 、Symbian3 Android 系统 上 的 AVG 游戏 引擎 。 因 其 基于 
Python2.0 平台 开发 ， 并 且 适 用 于 创建 秋之 回忆 (memories off) 风格 的 AVG 游戏 ， 
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故 命名 为 PYMO. 
不 只 个 人 用 户 推崇 Python， 企 业 用 户 也 对 Python 青睐 有 加 ， 以 下 是 明星 企业 的 应 用 


项 目 : 


Reddit: 社交 分 享 网 站 ， 最 早 用 Lisp 开发 ， 在 2005 年 转 为 python. 
Dropbox: 文件 分 享 服务 。 

EMA: 图 书 、 唱 片 、 电 影 等 文化 产品 的 资料 数据 库 网 站 。 

Django: 鼓励 快速 开发 的 Web 应 用 框架 。 

Fabric: 用 于 管理 成 百 上 千 台 Linux 主机 的 程序 库 。 

EVE: 网 络 游戏 EVE 大 量 使 用 Python 进行 开发 。 

Blender: 以 C 与 Python 开发 的 开源 3D 绘图 软件 。 

BitTorrent: bt 下 载 软件 客户 端 。 

Ubuntu Software Center: Ubuntu 9.10 版 本 后 自 带 的 图 形 化 包 管理 器 。 
YUM: 用 于 RPM 兼容 的 Linux 系统 上 的 包 管理 器 。 

Civilization IV: 游戏 《文明 4》。 

Battlefield 2: 游戏 《战地 2》。 

Google: 谷歌 在 很 多 项 目 中 用 python 作为 网 络 应 用 的 后 端 ， 如 Google Groups、 
Gmail, Google Maps 等 ，Google App Engine 支持 python 作为 开发 语言 。 
NASA: 美国 宇航 局 ， 从 1994 年 起 把 python 作为 主要 开发 语言 。 
Industrial Light & Magic: 工业 光 魔 ， 乔 治 。 卢 卡 斯 创立 的 电影 特效 公司 。 
Yahoo! Groups: 雅虎 推出 的 群 组 交流 平台 。 

YouTube: 视频 分 享 网 站 ， 在 某 些 功能 上 使 用 到 python。 

Cinema 4D: 一 套 整 合 3D 模型 、 动 画 与 绘图 的 高 级 三 维 绘图 软件 ， 以 其 高 速 的 运算 
和 强大 的 渔 染 插件 著称 。 

Autodesk Maya: 3D 建 模 软件 ， 支 持 python 作为 脚本 语言 。 

gedit: Linux 平台 的 文本 编辑 器 。 

GIMP: Linux 平台 的 图 像 处 理 软件 。 

Minecraft: Pi Edition: 游戏 《Minecraft》 的 树 莓 派 版 本 。 

MySQL Workbench: 可 视 化 数据 库 管 理工 具 。 

Digg: 社交 新 闻 分 享 网 站 。 

Mozilla: 为 支持 和 领导 开源 的 Mozilla 项 目 而 设立 的 一 个 非 营 利 组 织 。 
Quora: 社交 问答 网 站 。 

Path: 私密 社交 应 用 。 

Pinterest: 图 片 社 交 分 享 网 站 。 

SlideShare: 幻灯 片 存储 、 展 示 、 分 享 的 网 站 。 

Yelp: 美国 商户 点 评 网 站 。 

Slide: 社交 游戏 /应 用 开发 公司 ， 被 谷歌 收购 。 


还 有 很 多 企业 级 的 应 用 这 里 就 不 一 一 列举 了 。Python 适用 于 不 同 的 场合 、 不 同 的 人 群 ， 





Python Weh KR 


是 适应 性 非常 强 的 一 门 语言 。 


Python 开发 环境 配置 


Python 在 PC 三 大 主流 平台 (Windows, Linux 和 OS X) 都 可 使 用 。 在 这 里 只 讲解 
Windows 和 Linux 下 的 开发 环境 配置 。Windows 平台 以 Windows 7 为 例 ，Linux 平台 以 
Debian 8 系统 为 例 。Python 目前 主要 有 两 个 版 本 ，Python 2 和 Python 3。 目 前 ，Python 2 的 最 
终 版 本 是 Python 2.7.11，Python 3 的 最 终 版 本 是 Python 3.5.1。Python 3 虽然 功能 更 加 强大 ， 
但 暂时 Python 2 的 使 用 人 数 更 多 ， 本 书 中 全 部 选择 Python 2.7 为 例 。 








1.2.1 Windows 下 安装 Python 
(1) 打开 Chrome 浏览 器 ， 在 地 址 栏 输入 Python 官网 地 址 www.python.org， 如 图 1-1 所 


n Software Foundation [US] https.//www.python.org 


Python 


@ python 


About Downloads Documentation Community Success Stories le Events 


Intuitive Interpretation 


ork quickly 


earn More 








& Jobs 








community-run job board is th: 
place to ga. 





bs python arg 





图 1-1 Python 官网 


(2) 单 击 Python 2.7.11， 进 入 Python 2.7.11 的 下 载 页 面 ， 如 图 1-2 所 示 。 
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€ > C ffi |G Python Software Foundation [US] https://www.python.org/downloads/release/python-2711/ veo ¢ 
Files 
Version Operating System Description MDS Sum FileSize GPG 
Gzipped source tarball Source release Eb6076ec9e93f05dd63c47cb9c15728b 16856409 SIG 
XZ compressed source tarball Source release 1dbcc848b4cd8399a8199d000f3f823c 12277476 SIG 
Mac OS X 32-bit 1386/PPC installer Mac OSX for Mac OS X 10.5 and later 8d563a63b261fc3868c101471442b601 24018001 SIG 
Mac 05X 64-bit/32-bit installer Mac osx for MacOS X 10.6 and later cacdab5a05Csas5c0foel9f68aa0cT110 。 22162527 SIG 
Windows debug Information files windows b5ebe6703d69ee97d1d648d20df6ee55 24359078 SIG 
Windows debug information fites tor 64-bit binanes Windows 34bae9342bTa9dd5Se020cE108e7286 25104550 SIG 
Windows help fle windows as044f1dalg7c8381be0789c2dscce8 6171837 SIG 
for AMDG4/EM64T/x64, not Itanium processors 25accad2662d4b02682eee0df3i3446d 19550208 SIG 
241bf8e097ab4e1047d9bb4f59602095 18636800 SIG 














图 1-2 Python 下 载 


(3) 按照 安装 的 Windows 系统 选择 下 载 的 安装 文件 。 示 例 系统 是 Windows 7 64 位 版 
本 ， 所 以 在 此 下 载 的 是 Windows x86-64 installer。 
(4) 下 载 完毕 ， 得 到 安装 文件 python-2.7.11.amd64.msi。 双 击 该 文件 图 标 ， 开 始 安装 
Python 2.7, WB 1-3 所 示 。 
JB) Python 2.7.11 (64-bit) Setup x 





Select whether to install Python 2.7.11 
(64-bit) for all users of this computer. 


© Install for all users 
© Install just for me (not available on Windows Vista) 


python 
windows 





Back 

















图 1-3 安装 Python 
(5) 单 击 Next 按钮 ， 设 置 Python 安装 路 径 ， 如 图 1-4 所 示 。 


Python MERKAR 


"yi Python 2.7.11 (64-bit) Setup =a 


J Select Destination Directory 


Please select a directory for the Python 2.7.11 
(64-bit) files. 


#2 EF Python27 ~ [up][New | 


python 
for 
3 ET 
windows -一 一 


aq 
































图 1-4 设置 Python 安装 路 径 
(6) 选择 或 者 填 入 Python 的 安装 路 径 后 ， 单 击 Next 按钮 ， 进 入 Python 组 件 设置 ， 如 
图 1-5 所 示 。 
` I Python 2.7.11 (64-bit) Setup Tx | 


Customize Python 2.7.11 (64-bit) 
Select the way you want features to be installed. 


Click on the icons in the tree below to change the 
way features wil be installed. 


Register Extensions 
zj TeV Tk 
Documentation 


Prepend D:\| 98 Entire feature will be installed on local hard drive 
variable. Thi 


pyt hon command Pr x Entire feature will be unavailable 
for 






















for ‘This feature requires OKB on your hard drive. 
windows 





(Disk usage] (Advanced | (<Back f net> J| (cance ) 

















图 1-5 Python 组 件 选择 


默认 情况 下 Add python.exe to Path 这 个 组 件 是 未 选择 的 ， 它 的 作用 是 将 Python 的 路 径 加 
入 系统 环境 中 。 请 将 它 选 择 上 ， 单 击 Next 按钮 ， 开 始 安装 Python， 如 图 1-6 所 示 。 
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TIE Python 2.7.11 (64-bit) Setup =" 





Complete the Python 2.7.11 (64-bit) 
Installer 


A Space Widows tanks to: 
without whose years of freely 
P shared Windows expertise, Python for Windows 
s Python for DO: 
python 
windaae Click the Finish button to ext the Installer. 











tack eT] (cancel 
图 1-6 安装 Python 


(7) 单 击 Finish 按钮 ， 整 个 安装 程序 完毕 。 验 证 Python 是 否 安装 成 功 。 单 击 桌面 左下 
角 的 “开始 ”菜单 ， 在 地 址 栏 输入 cmd.exe 后 按 Enter 键 ， 打 开 Windows 系统 命令 行程 序 ， 
如 图 1-7 所 示 。 














图 1-7 打开 系统 命令 行 工具 cmd.exe 
(8) 执行 命令 ， 验 证 Python, WPA 1-8 所 示 。 


Python WERKER 


E C\Windows\system32\cmd.exe ea =a) 


icrosoft Windows URA 6.1.76811 
有 <c) 2889 Microsoft Corporation。 保 留 所 有 权利 。 












- [-c end 1 -a mod ifile | -] [arg] --- 


: don’t write -pylco] files on import; also PYTHONDONTURITEBYTECODE=x 
: progran passed in as string “terminates option list) 
: debug output from parser; also PYTHONDEBUG=x 
: ignore PYTHON* environment variables (such as PYTHONPATH) 
: print this help message and exit (also —help> 
: inspect interactively after running script; forces a prompt even 
if stdin does not appear to be a terminal; also PYTHONINSPECT=x 
-n mod : run library module as a script (terminates option list) 


ro : optimize generated bytecode slightly; also PYTHONOPTIMIZE=x 
-00 : remove doc-strings in addition to the -0 optimizations 
-R : use a pseudo-random salt to make hash) values of various types be 


unpredictable between separate invocations of the interpreter, as 
a defense against denial-of-service attacks 
MQ arg : division options: -Qold <default>, —Quarn, -Qwarnall, -Qnew 














rs =: don’t add user site directory to sys.path; also PYTHONNOUSERSITE 
FS = don’t imply ’import site’ on initialization bad 
图 1-8 验证 Python 

















好 了 ， 由 此 可 见 Python 已 安装 成 功 ， 并 已 将 路 径 添加 到 环境 变量 。 单 击 桌面 左下 的 “ 
始 ”|“ 所 有 程序 ”菜单 ， 单 击 Python 2.7 菜单 ， 就 可 以 看 到 Python nism, 如 图 1-9 所 示 。 


© Google Chrome 

@ internet Explorer (64 向 
@ internet Explorer 

& Windows Anytime Upgrade 
回 Windows Media Player 

©} Windows Update 

i Windows (eR 


®© IDLE (Python GUD 


? Module Docs 
* Python (command line) 
[È Python Manuals 

一 一 BUET 


帮助 和 支持 





1-9 Python 2.7 菜单 








在 安装 Python 的 同时 也 安装 了 Python 自 带 的 IDE 一 IDLE 和 本 地 的 模块 说 明文 档 。 这 





( 个 文档 的 说 明 很 详细 ， 一 般 只 用 看 这 个 文档 就 足够 了 。 





至 此 Python 已 在 Windows 上 安装 验证 成 功 ， 可 以 愉快 地 使 用 Python 了 。 
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1.2.2 Windows 下 安装 配置 pip 

上 文中 说 过 ，Python 有 几乎 无 限 的 第 三 方 模块 。 如 何 安装 这 些 第 三 方 模块 呢 ? 这 里 就 不 
得 不 说 到 easy_install All pip 了 。 

easy install 和 pip 都 是 Python 的 模块 安装 工具 ， 有 点 类 似 于 Debian 系统 的 apt-get, 
Fedora 系统 中 的 yum， 或 者 是 Windows 系统 中 的 QQ 软件 管理 器 ， 都 是 一 键 安装 软件 工具 ， 
所 不 同 的 是 它们 只 负责 安装 Python 模块 。 老 版 本 中 的 Python 只 有 easy_install。pip 可 以 认为 
是 easy_install 的 高 级 版 本 ， 所 以 pip 和 easy install 任 选 其 一 都 可 以 ， 个 人 建议 使 用 pipe Æ 
安装 Python 时 已 经 选择 了 pip 组 件 〈 如 图 1-5 所 示 ) ， 就 无 须 再 次 安装 pip 了 ， 直 接 开始 配 
置 即 可 。 

因为 pip 的 服务 器 ， 也 就 是 安装 源 在 国外 ， 基 于 国内 糟糕 的 网 络 环境 ， 使 用 pip 安装 
python 第 三 方 模块 将 是 一 个 很 痛苦 的 过 程 。 好 在 还 有 变通 的 方法 ， 在 国内 也 有 pip 的 镜像 
源 。 只 需要 在 pip 的 配置 文件 中 将 pip 的 安装 源 指向 国内 的 服务 器 ， 这 个 问题 就 解决 了 。 

根据 pip 的 指南 ，Windows 中 pip 的 配置 文件 是 %HOME%/pip/pip.ini (具体 到 当前 环 
Si, Windows 的 当前 用 户 是 king， 所 以 配置 文件 位 置 就 是 C:\Users\king\pip\pip.ini) 。 默 认 情 
况 下 pip 文件 夹 和 pip.ini 文件 都 未 被 创建 ， 需 要 自行 创建 。 按 照 指南 创 建 好 文件 夹 和 文件 
后 ， 修 改 pip.ini 文件 ， 如 图 1-10 所 示 。 























ARES = 


2013/11/29 1910 REVE 

















图 1-10 修改 pip.ini 
图 1-10 中 准备 了 3 个 pip 源 ， 任 选 其 一 都 可 以 。 选 择 的 方法 就 是 在 不 需要 的 源 地 址 前 面 
加 上 # 符 号 。 下 面 来 验证 一 下 修改 源 地 址 是 否 成 功 ， 执 行 命令 : 
python -m pip install -upgrade pip 
此 命令 的 作用 是 更 新 pip 源 ， 结 果 如 图 1-11 所 示 。 


画 C:\Windows\system32\cmd.exe 
:\sers\king>python -n pip install —upgrade pip 
in 








edu-cn}packages/9c/32/8B4ceG852eBal27f 8? 
B°8 .1.2—py2-py3-none-any.whl <1.2MB 


1 417kB 65BkB/s eta 8:00:02 
1 421kB 871kB/s eta 0:00:01 


1-11 更 新 pip W 
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可 以 看 出 ， 配 置 文件 中 的 新 源 已 经 起 作用 了 。 测 试 一 下 pip。 单 击 桌面 左下 角 的 “ 开 
始 ” 菜 单 ， 在 地 址 栏 中 输入 cmd.exe 后 按 Enter 键 ， 打 开 Windows 系统 命令 行程 序 。 执 行 命 
S, WR 1-12 所 示 。 


E CAWindows\system32\cmdexe le 








Outpat installed packages in requirements formar- 
List installed packages. 

Show infornation about installed packages. 
Search PyPI for packages. 

Build wheels from your requirements. 

hash Compute hashes of package archives. 

completion A helper command used for comand completion 
help Shov help for commands. 





General Options: 
oh, —help Show help. 














了 ae Aun pip in om isolated rode, ignorin 
| te 
图 1-12 测试 pip 


到 此 pip 已 完全 配置 完毕 。 


1.2.3 Linux 下 安装 Python 

即使 同一 个 版 本 的 Linux， 也 因为 不 同 的 桌面 环境 而 变 得 复杂 起 来 。 丰 富 的 软件 ， 是 
Linux 的 成 功 之 处 。 没 有 统一 的 标准 ， 却 是 Linux 不 能 做 大 做 强 的 关键 所 在 。 为 避免 桌面 环 
境 的 差异 ， 这 里 统一 使 用 Putty 来 连接 Linux。 对 于 Python 而 言 ， 任 意 版 本 的 Linux 都 没有 任 
何 的 区 别 。 这 里 演示 用 的 Linux 系统 为 Debian 8.0, IP 地 址 为 192.168.2.80。 下 面 ， 先 用 























Putty 连接 这 个 Linux 机 器 。 
(1) 双击 Putty 图 标 ， 打 开 Putty.exe， 填 入 IP 地 址 和 端口 信息 ， 如 图 1-13 所 示 。 
aa 

Cates 

E Session Basic options for your PuTTY session 
nars Specty the destination you wart to connect to 

Terminal 
Kopons [ 2 
Features 

E- Window ORaw OTenet ORogn @SSH O Señal 
eg Load, save or delete a stored session 
Translaton ‘Saved Sessions 
Selection [ 

oa Es toad 
Data E 二 < 
Poy 
Telnet Delete 
Riogn 

assi 
mat Cose window on ext: 
Öke Olver GO 








1-13 Putty 连接 设置 
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(2) 单 击 Open 按钮 ， 第 一 次 使 用 Putty 登录 Linux 会 有 一 个 安全 警告 提示 ， 如 图 1-14 
所 示 。 





PuTTY Security Alert 


The server's host key is not cached in the registry. You 
have no guarantee that the server is the computer you 
think it is. 

The server's rsa2 key fingerprint is: 

ssh-rsa 2048 18:fb:7f:a6:dc:56:29:4e:46:1c:7b:af:d4:85:a9:43 
If you trust this host, hit Yes to add the key to 

PuTTYs cache and carry on connecti 

If you want to carry on connecting just once, without 
adding the key to the cache, hit No. 

If you do not trust this host, hit Cancel to abandon the 
connection. 




















图 1-14 Putty 安全 警告 
(3) 单 击 “ 是 (Y)” 按 钮 ， 进 入 了 Linux 的 登录 界面 ， 如 图 1-15 所 示 。 


BP king@debians: ~ 


[The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


[Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 
king@debiané:~$ [] 





1-15 登录 Linux 


(4) 输入 用 户 名 和 用 户 密码 后 〈 用 户 密码 不 回 显 ) ， 登 录 到 了 Linux. 


Debian Linux 默认 安装 了 Python 2 和 Python 3〈 几 乎 所 有 的 Linux 发 行 版 本 都 默认 安装 
了 Python). Python 命令 默认 指向 Python 2.7， 验 证 一 下 Python 的 路 径 ， 执 行 命令 : 


执行 的 结果 如 图 1-16 所 示 。 


11 





Python MEEK 


# king@debians: ~ 一 口 





login as: king a 
kingē192.168.2.80's password: 


[The programs included with the Debian GNU/Linux system are free software; 
[the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


[Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
ermitted by applicable law. 
Last login: Wed May 18 11:30:58 2016 from 192.168.2.99 


lython /etc/python3.4 /usz/local/1ib/python2.7 /usr/local/1ib/python3.4 /usr/incl 
jude/python2.7 /usr/share/python /usr/share/man/mani/python.1.gz 

Keing@debian8:~$ 1s -l /usr/bin/python 

WXIWXIW 1 Toot Toot 1:00 /usr/bin/python -> python2.7 


jirwxrwxrwx 1 root root 9 5 13 01:00 /usr/bin/python3 -> python3.4 
king@debians:~$ [] 





图 1-16 查看 Python 路 径 
再 来 看 看 Python 的 版 本 信息 ， 执 行 命令 : 


执行 的 结果 如 图 1-17 所 示 。 
#P ring@debian8: ~ 


ss python2 -v 
ython 


ieing@debians : ~: hon3 -Y 


on ast 
king@debiane:~$ [] 





图 1-17 Python 版 本 信息 


从 图 1-17 中 可 以 看 出 ，Linux 上 安装 的 Python 的 版 本 与 官网 上 的 最 新 版 本 (Python 
3.5.1-Python 2.7.11) 是 不 同 的 。 这 是 正常 现象 ， 一 般 来 说 Debian Linux 会 使 用 软件 的 最 稳定 
版 本 ， 而 Ubuntu Linux 会 使 用 软件 的 最 新 版 本 。 


1.2.4 Linux 下 安装 配置 pip 

如 同 Windows 中 的 Python 一 样 ，Linux 中 的 Python 同样 需要 一 个 模块 安装 的 管理 工 
具 ， 可 以 是 easy_install， 也 可 以 是 pip。 遗 憾 的 是 多 数 Linux 版 本 并 没有 默认 安装 这 个 管理 工 
具 (Debian 可 以 用 apt-get 安装 大 部 分 的 Python 第 三 方 模块 ， 只 有 极 少 数 的 模块 不 能 使 用 
apt-get 安装 ) ， 所 以 得 自己 安装 它 了 。 

从 Debian Linux 中 安装 pip， 执 行 命令 : 





执行 结果 如 图 1-18 所 示 。 





EST = 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 ... ZR 

| 下列 款 件 包 是 自动 安装 的 并 且 现在 不 希 要 了 ， 
libasni-8-heimdal libgssapi3-heimdal 1ibhcrypco4-heimdal 
libheimbasel-heindal libheimntimO-heimdal 1ibhxS09-S-heindal 
LibkrbS-26-heimdal 1ibroken18-neimdal 1ibwind0-heimdal 

使 用 'apt-get autoremove' ERE (Ef) - 

将 会 安装 下 列 额 外 的 软件 包 : 
build-essential dpkg-dev g++ g++-4.9 libalgorithm-diff-perl 
libalgorithm-diff-xs-perl libalgorithm-merge-perl 1ibdpkg-perl 
libfile-fcntllock-perl libstdc++-4.9-dev python-cffi python-colorama 
python-cryptography python-distlib python-htmlSlib python-ndg-httpsclient 
python-openssl python-ply python-pyasnl python-pycparser python-requests 
python-setuptools python-urllib3 python-wheel 

建议 安装 的 软件 包 : 
debian-keyring gt+-multilib g++-4.9-multilib gec-4.9-doc libstdc++6-4.9-dbg 
Libstdc++-4.9-doc python-dev python-cryptography-doc 
python-cryptography-vectors python-genshi python-openssl-doc 
price: etanal dea Pn A Ho ae-base 

RERA 

ython-dev-all 

ve 【新 】 软 件 包 将 被 安装 : 
build-essential dpkg-dev g++ g++-4.9 libalgorithm-diff-perl 
libalgorithm-diff-xs-perl libalgorithm-merge-perl libdpkg-perl 
Libfile-fentllock-perl libstdc++-4.9-dev python-cffi python-colorama 
python-cryptography python-distlib python-htmlSlib python-ndg-httpsclient 
python-openss1 python-pip python-ply python-pyasn1 python-pycparser 
python-requests python-setuptools python-urllib3 python-wheel 


par 0 个 软件 包 ， 新 安装 了 25 TRA, KER o 个 软件 包 ， 有 2 个 软件 包 未 被 升 


WS PR 26.6 MB HRA. 
解压 缩 后 会 消耗 掉 56.8 kB 的 额外 空间 . 
您 希望 继续 执行 吗 ? (y/n) vi) 





图 1-18 安装 pip 
输入 su -命令 后 再 输入 系统 root 用 户 的 登录 密码 。 该 命令 的 作用 是 使 用 root 用 户 登 录 系 
统 ， 并 使 用 root 用 户 的 环境 变量 。apt-get install python-pip 作用 是 使 用 apt-get 命令 安装 
python-pip 这 个 工具 包 。 最 后 输入 y 确认 执行 命令 ， 开 始 安装 python-pip。 








Linux 下 安装 软件 都 必须 有 root 权限 ， 可 以 直接 转换 成 root 用 户 安装 ， 也 可 以 在 sudoers 
l 里 添加 用 户 和 权限 。 








安装 python-pip 后 ， 退 出 root 用 户 环境 ， 查 看 pip ere a 如 图 1-19 Mia 


pip <commana> options] 


commands: 
install Install packages. 
uninstall Uninstall packages. 
freeze Output installed packages in requirements format. 
list List installed packages. 
‘snow Snow inrcrmation about installed packages. 
search Search PyPI for packages. 
wheel, Build wheels from your requirements. 
zip DEPRECATED. Zip individual packages. 
unzip DEPRECATED. Unzip individual packages. 
bundle DEPRECATED. Create pybandles. 
help Show help for commands. 


General Options: 





1-19 验证 pip 
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最 后 还 要 将 pip 的 更 新 源 改 成 国内 源 。 根 据 pip 的 指南 ， 在 Linux 下 pip 的 配置 文件 是 


$SHOME/.pip/pip.conf， 执 行 命令 : 





执行 结果 如 图 1-20 所 示 。 


SP king@debians: ~ 
@debian8:~$ su - 
Es: 


root@debian8:~# cd 

root@debian&:~# pwd 

|/ zoot 

Jroot@debiané:~# mkdir .pip 

jroot@debian&:~# cd .pip 

jroot@debian&:~/.pip# cat > pip.conf << EOF 

> [global] 

> index-url = https://pypi-mirrors.ustc.edu.cn/simple 
> #index-url = https://pypi.hustunique.com/simple 
> $index-url = https://pypi.douban.com/simple 

> EOF 

Jroot@debian&:~/.pip# cat pip.conf 

[global] 

jindex-url = https://pypi.mirrors.ustc.edu.cn/simple 
#index-url = Attps://pypi.hustunique.com/simple 
#index-url = https://pypi.douban.com/simple 
eee exit 


king@debiane:~$ [] 





图 1-20 修改 pip.conf 


验证 一 下 修改 源 地 址 是 否 成 功 ， 执 行 命令 : 


结果 如 图 1-21 所 示 。 





Z1% Python 环境 配置 


B tingedetions - 6 


ikeing@debian8:~$ su - a 


root@debian8:~# python -m pip 
|Downloading/unpacking pip fro 
/04ce0852e0a127£07£358b71501576. 
Ine-any . whl #md5=0570520434cSb600d89ec95393b2650b 

Downloading pip-8.1.2-py2.py3-none-any.whl (1.2MB): 1.2MB downloaded 
‘Installing collected packages: pip 

Found existing installation: pip 1.5.6 

Not uninstalling pip at /usr/lib/python2.7/dist-packages, owned by OS 

Successfully installed pip 
Cleaning up... 
jroot@debian&:~# exit 
注销 
xing@debian8:~$ [] 







cnackages/9c/32/0 
S7pip-8.1.2-py2.py3-no 





1-21 更 新 pip W 
从 图 1-21 可 以 看 出 pip 源 已 经 开始 起 作用 了 。 下 面 来 测试 一 下 pip， 如 图 1-22 所 示 。 





B/python2.7/dist-packages (python 2.7) 


pip <command> [options] 


Ino such option: -H 
king@debian8:~$ clear 
king@debiané:~$ pip -V 
[pip 1.5.6 from /usr/lib/python2.7/dist-packages (python 2.7) 


king@debiané:~$ pip -h 


Usage: 
pip <command> [options] 


Install packages. 
uninstall Uninstall packages. 

freeze Output installed packages in requirements format. 
list List installed packages. 

show Show information about installed packages. 
search Search PyPI for packages. 





图 1-22 测试 pip 


到 此 pip 已 完全 配置 完毕 。 和 Windows 下 的 pip 不 同 ，Linux 下 的 pip 可 以 用 root 安装 模 
块 ， 也 可 以 使 用 一 般 用 户 来 安装 模块 。 推 荐 使 用 root 用 户 来 安装 ， 因 为 有 些 模块 安装 需要 
root 特权 ，root 安装 的 模块 一 般 用 户 都 可 以 使 用 。 


1.2.5 “永远 的 开始 : hello world 


似乎 所 有 的 编程 语言 第 一 个 程序 都 是 hello world. Python 也 不 能 免 俗 ， 下 面 分 别 从 
Windows 和 Linux 下 创建 hello.py。 


1 . Windows 下 创建 hello.py 


(1) 单 击 桌 面 左下 的 “开始 ”|“ 所 有 程序 ”菜单 ， 单 击 Python 2.7 菜单 ， 单 击 IDLE 
(Python GUD 菜 单 ， 如 图 1-23 所 示 。 
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国 Python Manuals 


中 Uninstall Python 
Ji WinRAR 
di m 





图 1-23 打开 IDLE 


[8 Python 27.11 Shell 


(2) 此 时 打开 的 是 Python shell 交互 界面 ， 再 单 击 File|New File 菜单 ， 如 图 1-24 所 示 。 
bo) © je 
















Open Module... 
Recent Files » 


Class Browser ALt#C 
Path Browser 





Ctrlts 
CtrltShiftts 
ALttShifttS 


i Ctrl+P 





AtA 
Ctrltg 





1-24 打开 IDE 


` L8 Python 2.7.11 Shell 





G) 用 IDLE 的 IDE 打开 了 一 个 新 文件 ， 在 此 新 文件 中 编辑 hello.py， 如 图 1-25 所 示 。 
alej zj 





File Edit Shell Debug Options Window Help 


Python 2.7.11 (v2.7. 
‘AND64)] on win32 
Type “copyright”, “credits” or “license()”for more information. 
222 









Le "Untitled" 


:6d1b6a68f775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit ( + 









File Edit Format Run Options Window Help 





#1/usr/bin/env python 
#-»- coding: utf-8 -+- 
=-author__ = “hstking hstking@hotmail. com” 








FA 1-25 编辑 hellopy 


(4) 单 击 该 IDE 的 File|Save As .…. 菜 单 ， 将 已 编辑 好 的 代码 保存 ， 


如 图 1-26 所 示 。 





"Lg Python 27.11 Shell 
Fle Edit Shell Debug Options Window Help _ 


Python 2.7.11 (v2.7. 11:6dlb6a68£775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit (| 
AND64)] on win32 

Type “copyright”, “credits” or “license()” for nore information. 

22 


Là “Untitled” 














































[Fle] edit Format Run Options Window Help 
Yer File Cerin 加 
Open... Ctrlto otnail, com’ 
Open Module. Alt 
Recent Files > 
Class Browser AlttC 





Path Browser 


Save Copy As... Alt#ShifttS 







Print Window Ctrl+P 


Close ALFA 
Exit Ctrltg 











图 1-26 保存 代码 
(5) 选择 保存 文件 位 置 。 这 里 选择 的 是 保存 到 桌面 ， 文 件 名 为 hello.py， 如 图 1-27 所 


Là Python 2.7.11 Shell 


File Edit Shell Debug Options Window Help 


Python 2.7.11 (v2.7. 11:6d1b6a68£775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit 
AID64)] on win32 

Type “copyright”, “credits” or “license()” for nore information. 

>>> 


Le “Untitled 己 [ 回 | 
File Edit Format Run Options Window Help 

#1/usr/bin/env python 

8-s- coding: utf-8 -+- 

—-uthor__ = ‘hstking hstking@hotnail. con’ 




















print 


print u” fit? » Python! “. encode ("GBK") 
Lè 54 = 











ABO Belo pyi | 
保存 类 型 加 ): [Python files (e. py, *. pyr) z 











1-27 选择 文件 保存 位 置 


(6) 单 击 “保存 ”按钮 ， 将 hello.py 保存 到 桌面 。 按 Shift 按钮 ， 同 时 右 击 桌面 空白 
处 ， 如 图 1-28 所 示 。 
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BY 














[File Edit Shell Debug Options Window 上 
Python 2.7.11 (v2.7. 11:6d1b6a68£775, Dec 
AMD64)] on win32 

Type “copyright”, “credits" or “License()" 
Lg hello.py - C:/Users/king/Desktop/hello.py (2.7.11 
File Edit Format Run Options Window Hh 
#!/usr/bin/env python 


8-s- coding: utf-8 -+ 
_author__ = "hstking hstking@hotmail. con’ 























if _name_, == "__main_': 
print “hello world!” 
print u" 你 好 ， Python! ”. encode ("GBK") 


1-28 打开 Windows 命令 行 工 具 
(7) 单 击 “ 在 此 处 打开 命令 窗口 ”， 打 开 了 命令 行 工具 ， 执 行 命令 : 


Python hellopy 
执行 结果 如 图 1-29 所 示 。 


LA Python 2.7.11 Shell 
File Edit Shell Debug Options Window Help 
Python. ea Dec 5 2015, 20:40:30) [MSC v.1500 64 bit (| 


AMD64)] on 
Type “copyright”, “credits” or “license()" for more information. 
>> 














File Edit Format Run Options Window Help 
#1 /usr/bir/env python 

#-# coding: utf-8 -+= 

--author__ = "hstking hstking@hotnail. con’ 





if _nane_, == "__nain_ 
print "hello world? 
print u" 你 好 ,Python! “. encode ("GBK") 








| = Users \king\Desktop> 


1-29 执行 hellopy 
至 此 ，Windows 下 的 hello.py 执行 完毕 。 
2 . Linux 下 创建 hello.py 
(1) 使 用 Putty 连接 到 Linux， 执 行 命令 : 
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执行 结果 如 图 1-30 所 示 。 


BB king@debian: ~/code/python. 


king@debian:~$ mkdir -pv code/ crawler 
mkdir: created directory ‘code/crawler’ 
king@debian:~$ cd !$ 
lcd code/crawler 
king@debian:~/code/python $ cat > hello.py << EOF 
> #!/usz/bin/env python 
coding: utf-8 -*- 
—authon_ = 'hstking hstking@hotmail.com' 


if _name_ == '_main_': 
print "hello world!” 

> print "你 好 ，Python! " 

> EOF 

iking@debian:~/code/python $ [] 


> 
> 
> 
> 
> 


图 1-30 编辑 hello.py 
(2) 然后 在 Putty 中 执行 命令 : 
Python hello.py 


执行 结果 如 图 1-31 所 示 。 


@ king@debian: ~/code/python. 


king@debian:~$ mkdir -pv code/python. 
Inkdir: created directory ‘code/python.’ 
king@debian:~$ cd !$ 

lcd code/python. 

iking@debian:~/code/python.$ cat > hello.py << EOF 
> #!/usr/bin/env python 

> #-*- coding: utf-8 -*- 

> _authon_ = ‘hstking hstking@hotmail.com' 

> 

> if _name_ == '_main_': 

> print "hello world!” 

> print "你 好 ，PYchon! " 

[> EOF 

king@debian:~/code/python.$ python hello.py 
[hello world! 

你 好 ，Python! 

ring@debian:~/code/python.$ [] 


图 1-31 执行 hello.py 


本 编辑 器 ， 如 vi。 几乎 所 有 的 Linux 版 本 者 默认 安 装 了 vi 文本 编辑 器 。 








这 是 没有 使 用 文本 编辑 工具 编辑 文档 ， 用 的 是 cat 命令 。 如 果 有 条 件 ， 尽 可 能 地 使 用 文 
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Linux 下 的 hello.py 执行 完毕 。 比 较 一 下 这 两 个 不 同系 统 下 的 hello.py， 可 以 发 现 基 本 上 
是 一 致 的 ， 只 有 在 涉及 中 文 处 理 的 时 候 稍 有 差别 Windows 和 Linux 中 的 中 文 处 理 采用 了 不 
同 的 字符 编码 。Windows 使 用 的 是 GBK，Linux 一 般 默 认 使 用 utfg) 。 几 乎 所 有 的 Python FE 
序 都 可 以 在 不 同系 统 中 通用 ， 这 也 是 Python 最 大 的 优势 之 一 。 


1.3 本 章 小 结 


Python 语言 使 用 范围 很 广 ， 能 做 最 简单 的 数学 加 减 运算 ， 也 能 做 高 端的 科学 计算 。 既 可 
服务 于 企业 、 政 府 、 学 校 ， 也 能 用 于 个 人 ， 而 且 Python 易学 难 精 ， 不 管 是 初学 者 还 是 “高 段 
选手 ”都 值得 一 学 、 一 用 。 尤 其 是 对 网 络 的 大 力 支 持 ， 使 得 Python 用 于 网 络 编程 具有 很 大 的 
优势 ， 这 也 是 为 什么 要 用 Python 写 网 络 爬 虫 的 原因 之 一 。 
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本 章 简略 讲解 Python 的 基础 ， 介 绍 Python 与 其 他 编程 语言 的 不 同 之 处 。 在 此 主要 是 与 
C 语言 相 比较 。 如 果 有 C 语言 的 基础 ， 理 解 本 章 内 容 会 更 加 容易 ， 如 果 没 有 基础 也 没关系 ， 
Python 语言 非常 非常 的 简单 ， 多 看 两 遍 也 就 会 了 。 


2.71 python 变量 类 型 


Python 的 标准 数据 类 型 只 有 5 个 ， 分 别 是 数字 、 字 符 串 、 列 表 、 元 祖 、 字 典 。 看 起 来 比 
C 语言 的 数据 类 型 少 了 很 多 ， 但 该 有 的 功能 一 个 不 少 。 即 使 C 语言 的 代表 作 链 表 和 二 又 树 ， 
Python 同样 能 应 付 自 如 。 


2.1.1 数字 
Python 支持 4 种 不 同 的 数值 类 型 : 
1. int 类 型 


有 符号 整数 ， 就 是 C 语言 中 所 指 的 整 型 ， 也 就 是 数学 中 的 整数 。 它 的 大 小 与 安装 的 解释 
器 的 位 数 有 关 。 如 果 赋 值 超出 了 这 个 范围 ， 则 自动 转换 成 了 Long 长 整 型 。 查 看 当前 系统 下 
的 Int 最 大 值 ， 使 用 Putty 登录 Linux， 执 行 命令 : 


执行 结果 ， 如 图 2-1 所 示 。 


Python 网 络 礁 虫 实战 


SP king@debian z 4 
[Using username "king". 
Authenticating with public key "imported-openssh-key" 





[The programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


[Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 


[permitted by applicable law. 

[You have new mail. 

Last login: 

king@debian:~$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

[Type "help", "copyright", "credits" or "license" for more information. 
mpore sys 

>>> print sys.maxint 

9223372036254775807 





图 2-1 求 int 最 大 值 


与 C 语言 不 同 的 是 ，Python 给 变量 赋值 时 不 需要 预先 声明 变量 类 型 。 也 就 是 说 ， 在 给 变 
量 赋值 时 小 于 9223372036854775807 的 数字 会 被 默认 为 int 类 型 。 超 过 了 ， 则 自动 变 成 Long 

另外 ， 八 进 制 数字 、 十 六 进 制 数 字 都 是 属于 int (Long) 类 型 的 。 

2. Long 类 型 

长 整数 ， 超 过 int 类 型 的 整数 默认 转换 Long， 一 般 来 说 int 足够 用 了 。Long 类 型 没有 限 


制 大 小 ， 想 赋值 多 大 都 行 ， 只 要 内 存 足 够 大 就 可 以 了 。 在 Windows 中 打开 cmd.exe， 执 行 命 
4; 


python 
type (999999999999999999999999999999) 


执行 结果 如 图 2-2 所 示 。 






:Msers\king>python 
Python 2.7.11 (v2.7.11:6dib6a68F775. Dec 5 2915。 20:40:38) [MSC v.1500 
AMD64>1 on win32 


>> type(99999999999999999999999999999》 
type ’long’> 


2-2 Python long int 





se" for more information. 


3. Float 类 型 


浮 点 型 实数 ， 基 本 和 C 语言 的 浮 点 型 一 致 ， 也 就 是 数学 中 带 小 数 点 的 数 ， 不 包括 无 限 小 
数 ， 不 区 分 精度 。 只 要 是 带 小 数 点 的 数 都 可 以 看 作 浮 点 型 数据 。 
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4. Complex 类 型 


复数 ， 在 C 语言 中 是 需要 自 定义 的 一 个 数据 类 型 。 在 Python 中 把 它 单独 列 出 作为 基本 
数据 类 型 。 复 数 包含 一 个 有 序 对 ， 表 示 为 a+ bj， 其 中 ，a 是 实 部 ，b 是 复数 的 虚 部 。 


【示例 2-1】 用 一 个 简单 的 程序 showNumType.py 来 显示 Python 的 数字 类 型 。 使 用 Putty 
连接 到 Linux， 执 行 命令 : 


showNumType.py 代码 如 下 : 





DEJE: EuS 





在 Putty 下 执行 命令 : 
| python showNumtype-py 
得 到 结果 如 图 2-3 所 示 。 


BB king@debian: ~/code/crawer 


king@debian:~/code/crawler$ python showNumType.py 
fest LT Slee 
| 十进制 的 整 型 


70 710000 
7 0b0 + Ob10011100010000 
+1023420 


+ 0x2710 


-10000000000000000000,0 +10000000000000000000 
八进制 的 整 型 
|-01053071060221172000000L, 0 +01053071060221172000000L 
十 六 进 制 的 整 型 
|-Ox8ac7230489e80000L, 0x0  0x8ac7230489e80000L 
seeeeeeee2 LOS 点 D ttt HERRER E 
-100.0010000000 +0.0000000000 +100.0010000000 
seeeeeeses a aE EELEE EEEE 
| 变量 赋 var = 3 + 43 

ar 的 实 部 是 : 3 var 的 庶 部 是 : 4 
king@debian:~/code/crawlers [] 





图 2-3 run showNumType.py 


showNumType.py 是 Linux 下 以 C++ 风格 写 的 程序 ， 展 示 如 何 标准 输出 各 种 基本 数字 类 
型 。 


2.1.2 FRR 
在 Python 中 ， 字 符 串 是 被 定义 为 在 引号 〈 或 双 引号 ) 之 间 的 一 组 连续 的 字符 。 这 个 字符 
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可 以 是 键盘 上 的 所 有 可 见 字符 ， 也 可 以 是 不 可 见 的 如 “ 回 车 符 ”“ 制 表 符 ”等 等 。 
字符 串 的 操作 方法 很 多 ， 这 里 只 选 出 最 典型 的 几 种 。 
(1) 字符 串 大 小 写 转换 
© Slower): 字母 大 写 转换 成 小 写 。 
© Supper): 字母 小 写 转换 成 大 写 。 
© S.swapcase(): 字母 大 写 转换 小 写 ， 小 写 转换 成 大 写 。 
© Sititle0: 将 首 字 母 大 写 。 


(2) 字符 串 搜索 、 蔡 换 


@ S.find(substr, [start, [end]]): 返回 S 中 出 现 substr 的 第 一 个 字母 的 标号 ， 如 果 S PIR 
有 substr 则 返回 -1，start 和 end 作用 就 相当 于 在 S[start:end] 中 搜索 。 

© S.count(substr, [start [end]]) : 计算 substr Æ S 中 出 现 的 次 数 。 

© S.replace(oldstr, newstr, [count]): łe S 中 的 oldstar 替换 为 newstr，count 为 替换 次 
数 。 

© S.strip([chars]): 把 S 左右 两 端 chars 中 有 的 字符 全 部 去 掉 ， 一 般 用 于 去 除 空格 。 

©  S.lstrip([chars]): 把 S Æ% chars 中 所 有 的 字符 全 部 去 掉 。 

©  S.strip([chars]): 把 S 左 端 chars 中 所 有 的 字符 全 部 去 掉 。 


(3) 字符 串 分 割 、 组 合 

© S.split([sep, [maxsplit]]): 以 sep 为 分 隔 符 ， 把 S 分 成 一 个 list。maxsplit 表示 分 割 的 
次 数 ， 默 认 的 分 割 符 为 空白 字符 。 

© Sjoin(seq): 把 seq 代表 的 序列 一 一 字符 串 序列 ， 用 S 连接 起 来 。 

(4) 字符 串 编 码 、 解 码 


© S.decode([encoding]): 将 以 encoding 编码 的 S 解码 成 unicode 编码 。 

@ S.encode([encoding]): 将 以 unicode 编码 的 S 编码 成 encoding, encoding 可 以 是 
gb2312、gbk、big3 …… 

(5) 字符 串 测试 

S.isalpha): S 是 否 全 是 字母 ， 至 少 有 一 个 字符 。 

S.isdigit): S 是 否 全 是 数字 ， 至 少 有 一 个 字符 。 

S.isspace(): S 是 否 全 是 空白 字符 ， 至 少 有 一 个 字符 。 

S.islower(): S 中 的 字母 是 否 全 是 小 写 。 

S.isupper(): S 中 的 字母 是 否 全 是 大 写 。 

© Sistitle): S 是否 是 首 字母 大 写 的 。 


【示例 2-2】 编 写 一 个 showStrOperation.py 来 实验 一 下 。 这 次 在 Windows 下 以 IDLE 为 
IDE 来 编写 程序 。showStrOperation.py 代码 如 下 : 


VY 
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打开 Windows 的 命令 行 工具 (cmd.exe )， 执 行 命令 : 
python showStroperation-py 


得 到 结果 如 图 2-4 所 示 。 





Python eR KAR 














itt sagas ee a 


Tiun icode RESH 


图 2-4 run showStrOperation.py 


与 showNumType.py 不 同 ，showStrOperation.py 是 在 Windows 下 以 C 语言 的 风格 编写 
的 。 实 际 上 这 两 个 程序 并 没有 什么 区 别 ， 写 哪 种 风格 看 个 人 习惯 。 唯 一 的 区 别 就 是 Windows 
默认 的 是 GBK 编码 ， 所 以 showStrOperation.py 声明 的 是 #-*- coding:GBK -*-; 而 Linux 默认 
的 是 utfg 编码 ， 所 以 showNumType.py 声明 的 是 #-*- coding:utf8 -*-. 








字符 串 也 可 以 看 成 一 个 不 可 修改 的 字符 列表 。 所 以 ， 大 部 分 用 来 操作 列表 的 方法 ae) 
{ 及 修改 列表 元 素 的 ) 同样 可 以 用 来 操作 字符 串 。 











2.1.3 ”列表 

列表 是 Python 最 常用 的 变量 类 型 。 列 表 是 一 个 可 变 序列 ， 序 列 中 的 每 个 元 素 都 分 配 一 个 
数字 即 它 的 位 置 ， 或 者 叫 索引 。 第 一 个 索引 是 0， 第 二 个 索引 是 1， 依 此 类 推 . 列表 中 的 元 素 
可 以 是 数字 、 字 符 串 、 列 表 、 元 组 、 字 典 ……Python 使 用 中 括号 [ ] 来 解析 列表 ， 给 一 个 变 
量 赋值 为 空 列表 。 很 简单 ， 执 行 命令 var = [] 就 可 以 了 。 

列表 的 基本 操作 很 简单 ， 常 用 的 操作 一 般 是 创建 列表 、 插 入 数据 、 追 加 数据 、 访 问 数 
据 、 删 除数 据 。 下 面 实验 一 下 : 

创建 列表 ， 直 接 赋值 即 可 。 访 问 列表 只 需要 列表 名 和 列表 中 元 素 的 下 标 即 可 。 创 建 一 个 
字符 的 列表 ， 执 行 命令 : 


Rink = tan Oc Given 
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执行 结构 如 图 2-5 所 示 。 


D bingeacbion ~ 
iking@debian:~$ python 
» Mar 1 2015, 12:57:24) 


, "credits" or "license" for more information. 


aceback (most recent call last): 

File "<stdin>", line 1, in <module> 
indexError: list index out of range 
>>> 





2-5 创建 列表 


如 图 2-5 所 示 ， 如 果 访 问 超出 范围 ，Python 则 会 抛 出 一 个 异常 IndexError。 如 果 只 是 创 
建 一 个 纯 字 符 的 列表 ， 无 须 一 个 个 地 输入 字符 ， 有 个 更 简单 的 方法 ， 执 行 命令 LI = 
list('abcde") 即 可 。 

插入 、 追 加 、 删 除 列表 数据 也 很 简单 。 执 行 命令 : 





执行 结果 如 图 2-6 所 示 。 





让 ting@debian: ~ =o 到 R 


>>> La a 
Dat, tb, tot, ae 

>>> L1.insert (0,0) 

>>> Li 

to, tat, "bY, tet, ae 

>>> Li.insert (-1, 100) 


>>> 11 
[0, 'a', "bt, * 100, 'e'] 
>>> L1.append('python") 

>>> La 


[0, 'a', 'b', 'c', 'd', 100, 'e', 'python'] 
>>> 11.pop(3) 


[0, 'a', 'b', 'd', 100, 'e', 'python'] 


to, 'a', 'b', 'd', 100, 'e'] 





图 2-6 插入 、 追 加 、 删 除数 据 
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对 列表 最 常用 的 操作 是 列表 分 片 。 分 片 可 以 简单 地 理解 为 将 一 个 列表 分 成 几 块 。 它 的 操 
作 方 法 是 list[indexl:index2[:step]]。 先 创建 一 个 较 长 的 数字 列表 做 这 个 分 片 示例 ， 执 行 命令 : 


这 样 就 创建 了 一 个 包含 了 从 0~100， 共 101 个 数字 的 列表 ， 如 图 2-7 所 示 。 


- o x 





2-7 创建 数字 列表 


列表 切片 其 实 和 访问 列表 元 素 很 相似 。 例 如 ， 要 访问 列表 L2 的 第 10 个 元 素 ， 那 么 就 应 
该 是 L2[10] 就 可 以 了 。 如 果 要 访问 列表 L2 的 第 10 到 20 个 元 素 呢 ? 很 简单 ，L2[10:21] 就 可 
以 了 。 至 于 list[index1:index2[:step]] 中 的 step 是 步 长 。 实 验 一 下 就 清楚 了 ， 执 行 命令 : 





执行 结果 如 图 2-8 所 示 。 


>> L2021:41] 
21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 
[>>> 121212101] 


Esi, Sž, 83, 54, 85, 86, 57, B5, 89, 90, 91, 92, 93, 94, 95, 96, 97, 38, 99, 100 





图 2-8 列表 分 片 
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【示例 2-3】 写 个 简单 的 程序 showListpy 验证 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命 
a: 


showList.py 的 代码 如 下 : 








Python WERS 








输入 :wq， 保 存 showList.py. showList.py 显示 了 Python 列表 的 基本 功能 一 一 列表 的 创 
、 插 入 、 追 加 、 分 片 等 。 执 行 命令 : 


得 到 的 结果 如 图 2-9 所 示 。 


& king@debian: ~/code/crawler 
king@debian:~/code/crawler$ python showList.py 


for 4 in xrange (0,10): 
L2.append (i) 
['a', "b', ‘ct, "dt, tet, '£", 'g*) 
(0, 1, 2, 3, 4, 5, 6 7, & 9] 


插入 数据 

za 列 要 中 第 3 个 位 置 插入 数字 100， 执 行 命令 ， L1.insert (3,100) 

ci = piai "bt, tect, 100, tat, tet, '£, igi 

LaF RiohORBALAM prenon, ATAR: 12.insert (10, 'pychon') 
z2 = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 'python'] 


追加 数据 
1 列表 尾 追 加 一 个 列表 [1,2,31]， 执 行 命令 L1.append([1,2,3] 
tc", 100, 'd', "et, tft, 'g', [1, 2, 3] 
元 ‘bt, 'c'), RAT H S11. append (( 
LO, 1, 2, 3, 4, 5, 6, 7, 8, 9, ‘python’, ('a', 'b', 'c')] 


删除 数据 

删除 1 的 最 后 一 个 元 素 ， 执 行 命令 L1.pop () 

Li = ['a', "bt, "ct, 100, 'a', 'e', 'f', 'g') 

| 删除 L1 的 第 1 个 元 素 ， 执 行 命令 L1.pop (0) 

Li = ['b', 'c', 100, 'a', 'e', 'f', 'g'] 

RLRE AER, AAL. pop (3) 

2 = [0, 1, 2, 4, 5, 6, 7, & 9, "python", ('a', 'b', 'c')] 


列表 分 片 
PERE ia eater Re eA teeta 执行 命令 L1[2:] 
最 另 守 12 的 第 2 不 到 重 数 策 > 个 元 素 组 成 的 新 列表 ， 步 长 为 2， 执 行 命令 L2[1:-1:2] 
[1, 4, 6, 8, ‘python'] 
raceback (most recent call last): 
File "showList.py", line 82, in <module> 
51 = ShowList () 
File "showList.py", line 15, in init 
self. subList() 
File "showList.py", line 78, in subList 
pritn('\n') 
NameError: global name 'pritn' is not defined 
king@debian:~/code/crawlers [] 





2-9 run showList.py 


列表 还 有 很 多 其 他 的 函数 和 操作 方法 ， 如 有 兴趣 可 参考 官方 文档 和 google。 列 表 和 元 组 
非常 相似 ， 掌 握 了 列表 ， 就 基本 掌握 了 元 组 。 列表， 是 Python 编程 中 必 不 可 少 的 一 部 分 。 
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2.1.4 元 组 

Python 的 元 组 与 列表 非常 相似 ， 不 同 之 处 在 于 元 组 的 元 素 是 不 可 修改 ， 它 是 一 个 不 可 变 
序列 。 列 表 使 用 [] 来 声明 ， 元 组 使 用 0 声明 。 

元 组 创建 很 简单 ， 只 需要 在 括号 中 添加 元 素 ， 并 使 用 喜 号 阳 开 即 可 。 创 建 一 个 空 元 组 ， 
执行 命令 var = ()。 因 为 元 组 中 元 素 是 不 可 修改 的 ， 所 以 列表 中 的 操作 方法 insert. append, 
pop 等 操作 对 于 元 组 这 些 都 没有 。 又 因为 元 组 与 列表 的 高 度 相似 性 ， 列 表 的 切片 对 元 组 是 完 
全 适用 的 切片 并 不 改变 原始 数据 ) ， 所 以 只 需要 记 住 一 个 原则 ， 列 表 中 修改 元 素 值 的 操作 
元 组 都 不 可 用 ， 列 表 中 不 修改 元 素 值 的 操作 元 组 基本 上 都 可 以 用 。 

元 组 和 列表 是 可 以 互相 转换 的 。 使 用 tuple(list) 可 以 将 一 个 列表 转换 成 元 组 ， 反 过 来 使 用 
list(tuple) 也 可 以 将 一 个 元 组 转换 成 列表 。 


【示例 2-4】 编 写 一 个 showTuple 来 实验 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 





showTuple.py 的 代码 如 下 : 











输入 :wq， 保 存 showTuple.py。showTuple.py 显示 了 Python 元 组 的 创建 、 分 片 和 转换 。 
执行 命令 : 


Python showTuple'Py 
得 到 的 结果 如 图 2-10 所 示 。 


BP 5ng@debian: -/codeycrawler 一 口 
ldebian:~/code/crawler$ python showTuple.py 








(1,2,3,4,5,6,7,8,9,10) 
(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 


,9, 20) 4 
| 取 元 组 ri 的 第 2 个 到 倒数 第 2 个 元 素 组 成 的 新 元 组 ， 步 长 为 ?， 执 行 命令 T1[1:-1:2] 


(2, 4, 6, 8) 


元 组 转换 成 列表 : 
显示 元 组 


1= (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 


执行 命令 L2 = 1ist(T1) 
显示 列表 


L2 = [1, 2, 3, 4, 5, €, 7, 8, 9, 10] 
列表 追加 一 个 元 素 100 后 ， 转 换 成 元 组 .执行 命令 L2.append (100) zuple(L2) 
| 显示 新 元 组 


(, 2, 3, 4, 5, 6, 7, 8, 9, 10, 100) 
cing@debian:~/code/crawlers 
Jking@debian:~/code/crawler$s 





2-10 run showTuple.py 
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_ 因 为 元 组 和 列表 高 度 相似 ， 绝 大 部 分 场合 都 可 以 用 列表 来 蔡 代 元 组 。 












元 组 和 列表 不 同 仅 在 于 一 个 可 修改 ， 一 个 不 可 修改 。 其 他 方面 几乎 没什么 区 别 。 由 于 元 
组 不 可 修改 的 特性 ， 一 般 在 函数 中 需要 返回 多 个 返回 值 时 ， 可 以 将 这 些 返 回 值 放 入 一 个 
元 组 中 返回 。 







2.1.5 字典 


从 某 种 意义 上 来 说 ， 字 典 和 列表 也 很 相似 。 字 典 使 用 的 是 入 ， 列 表 使 用 的 是 []， 元 素 分 
隔 符 都 是 逗号 。 所 不 同 的 是 列表 的 索引 只 是 从 0 开始 的 有 序 整 数 ， 不 可 重复 ;而 字典 的 索引 
实际 上 在 字典 里 应 该 叫 键 。 虽 然 字 典 中 的 键 和 列表 中 的 索引 一 样 是 不 可 重复 的 ， 但 键 是 无 序 
的 ， 也 就 是 说 字典 中 的 元 素 是 没有 顺序 而 言 的 。 字 典 中 的 元 素 任意 排列 都 不 影响 字典 的 使 
用 。 

字典 的 键 可 以 是 数字 、 字 符 串 、 列 表 、 元 组 …… 几 乎 什么 都 可 以 ， 一 般 用 字符 串 来 做 
键 ， 键 与 键 值 用 冒号 分 割 。 在 列表 中 是 通过 索引 来 访问 元 素 ， 而 在 字典 中 是 通过 键 来 访问 键 
值 。 因 为 字典 按 “ 键 ” 寻 值 而 不 同 于 列表 的 按 “ 索 ” 寻 值 ， 所 以 字典 的 操作 方法 与 列表 稍 有 
区 别 。 

首先 创建 一 个 字典 实验 一 下 ， 执 行 命令 : 


这 样 就 建立 了 一 个 简单 的 IronMan 字典 。 因 为 字典 的 键 值 是 无 序 的 ， 所 以 插入 一 个 数据 
无 须 insert 之 类 的 方法 。 直 接 定义 即 可 ， 执 行 命令 : 


如 需 添加 资料 ， 只 需要 继续 这 样 添加 即 可 。 如 果 发 现 资料 有 误 ， 修 改 字典 ， 同 样 也 是 直 
接 定 义 ， 执 行 命令 : 


如 果 要 删除 某 个 元 素 ， 可 以 使 用 del 命令 。del 命令 可 以 理解 为 取消 分 配给 变量 的 内 存 空 
间 。 执 行 命令 : 


del 命令 不 只 是 可 以 删除 字典 的 元 素 ， 类 似 字典 元 素 、 用 户 定义 的 变量 都 可 以 用 del XH 
除 。 它 可 以 删除 数字 变量 、 字 符 串 变量 、 列 表 、 元 组 、 字 典 等 等 。 
字典 还 有 一 些 独 特 的 操作 。 以 下 是 字典 中 最 常用 的 操作 : 


© dcitkeys(): 返回 一 个 包含 字典 所 有 key 的 列表 。 
© dictvalues): 返回 一 个 包含 字典 所 有 value 的 列表 。 
© dictitems0: 返回 一 个 包含 所 有 ( 键 , 值 ) 元 组 的 列表 。 
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© dictclear(): 删除 字典 中 所 有 的 元 素 。 
© dict.get(key): 返回 字典 中 key 所 对 应 的 值 。 


【示例 2-5】 编 写 一 个 showDict 来 实验 一 下 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


showDict.py 的 代码 如 下 : 








Python WERS 








输入 :wq， 保 存 showDict.py. showDict.py 显示 了 Python 字典 的 基本 功能 。 执 行 命令 : 
| python showDictepy 
得 到 的 结果 如 图 2-11 所 示 。 


eB king@debian: ~/code/crawler 
on showDict 


{'Nation': 'Americ', ‘college’: 'MIT', 'name': 'Peter Parker', ‘sex 


: 31, 'Nation': 'Americ', 'college': 'MIT', 'name': 'Peter Pa 


字典 修改 键 ' college' 的 值 为 'Empire State University’ 

| 执行 命令 spiderMan['college'] = ‘Empire State University’ 

显示 字典 

SpiderMan = {'age': 31, 'Nation': 'Americ', ‘college’: 'Empire State University 
', 'name': "Peter Parker', 'sex': 'male'} 


字典 的 其 它 操作 方法 

EE TE TT Ld 

显示 字典 所 有 的 键 ，keyList = spiderMan.keys() 

keyList = ['age', ‘Nation’, ‘college’, ‘name', ‘sex'] 


| 显示 字典 所 有 键 的 值 ，valueList = spiderMan.values() 
valueList = [31, 'Americ', ‘Empire State University', ‘Peter Parker', 'male'] 


显示 字典 所 有 键 和 值 的 元 组 ，itemList = spiderMan.items() 
itemList = [('age', 31), ('Nation', ‘Americ'), ('college', ‘Empire State Univer 
sity’), ('name', ‘Peter Parker'), ('sex', 'male')] 


| 取 字 典 中 键 为 college 的 值 , college = spiderman.get (*college') 
college = Empire State University 


删除 字典 中 键 为 Nacion 的 值 
noes del (spiderMan['Nation']) 


(lage': 31, ‘college’: ‘Empire State University’, ‘name’: ‘Peter Pa 
‘sex’: 'male'} 


清空 字典 中 所 有 的 值 
| 执行 命令 spiderMan.clear() 


| 执行 命令 dei (spiderMan) 

显示 spiderMan 

spiderman 未 被 定义 
[cingedebian:~/code/crawlers [] 





图 2-11 run showDict.py 
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Python 的 基本 变量 类 型 就 是 这 些 。 其 他 的 类 型 几乎 都 是 由 这 些 基本 类 型 组 合 而 来 
(Python 的 数据 类 型 还 有 None 和 boolean) 。 


字典 的 键 和 键 值 可 以 是 任何 类 型 。 在 没有 什么 特殊 要 求 的 情况 下 尽 可 能 地 使 用 字符 串 作 





为 键 。 如 果 把 键 设置 得 大 复杂 了 ， 那 也 就 失去 字典 的 意义 了 。 


2.2 Python 语句 


说 到 语句 ， 回 想 一 下 C, CH, Java, Per 等 ， 似 乎 所 有 的 编程 语言 都 有 类 似 的 语句 。 条 
件 判 断 、 有 限 循环 、 无 限 循环 ， 这 几 个 是 最 基本 的 ， 也 是 必 不 可 少 的 。 每 个 编程 语言 都 差 不 
多 。 熟 悉 了 这 几 个 语句 后 ， 即 使 是 一 门 从 未 接触 过 的 语言 ， 稍 微 了 解 一 下 格式 语法 就 可 以 用 
新 的 语言 解决 一 般 的 小 问题 了 。 


2.2.1 条 件 语 句 一 一 if else 

似乎 所 有 的 条 件 语句 都 使 用 if……else……。 它 的 作用 可 以 简单 地 概括 为 非 此 即 彼 。 满 足 
条 件 A 则 执行 A 的 语句 ， 否 则 执行 B 语句 。Python 的 让 ……else…… 功 能 更 加 强大 ， 在 让 和 
else 之 间 添 加 数 个 elift， 有 更 多 的 条 件 选 择 。 其 表达 形式 如 下 : 





【示例 2-6】 编 写 testIfRemainder7.py 熟悉 一 下 Python 下 的 让 语句 。testIfRemainder7.py 
用 来 检验 输入 数字 能 否 被 7 整除 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 





testIfRemainder7.py 的 代码 如 下 : 
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输入 :wq， 保 存 testIfRemainder7.py. testIfRemainder7.py 要 求 用 户 输入 一 个 整数 ， 然 后 判 
断 这 个 数 能 否 被 7 整除 ， 基 本 就 是 一 个 最 基本 的 非 此 即 彼 的 判断 。 执 行 命令 : 


| python testIfRemainder?-py | 
得 到 的 结果 如 图 2-12 所 示 。 


eB king@debian: ~/code/crawler 
5~/code/crawler: hon testif—Remainder7. 


除 
king@debian:~/code/crawlers [] 





图 2-12 run testIfRemainder7.py 


非常 简单 。 按 照 格式 ， 照 猫 画 虎 就 可 以 解决 类 似 的 问题 了 。 

Case switch 是 C 语言 中 经 典 的 条 件 语 句 之 一 。 可 惜 的 是 Python 中 并 没有 Case 语句 。 不 
过 没关系 ，if elif else 完全 可 以 替代 case 语句 。 如 果 原 意 开 动脑 筋 ，Python 中 还 有 很 多 可 以 
替代 Case 语句 的 方案 ， 例 如 利用 字典 什么 的 ， 这 里 就 不 再 一 一 袭 述 了 。 





2.2.2 ”有 限 循 环 一 一 for 

在 编程 时 ， 总 会 遇 到 这 种 事情 ， 把 某 个 过 程 重复 N 次 。 这 是 每 个 编程 语言 都 不 可 避免 
的 。 好 在 几乎 所 有 的 编程 语言 都 提供 for 语句 。 它 的 作用 是 将 一 个 语句 块 、 函 数 等 重复 执行 
有 限 的 次 数 。 

for 循环 表达 形式 如 下 : 
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比如 从 1 加 到 100。 大 数学 家 高 斯 (Johann Karl Friedrich Gauss ) 10 岁 时 就 给 出 了 计算 
的 公式 。 虽然 已 经 有 了 简单 的 方法 ， 用 策 方 法 验算 一 下 也 不 错 。 


【示例 2-7】 编 写 testForGauss10.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 





testForGauss10.py 的 代码 如 下 : 





输入 :wq， 保 存 testForGauss10.py。testForGauss.py 将 使 用 最 策 的 方法 求 从 1 加 到 100 的 
和 ， 使 用 for 循环 一 个 数 一 个 数 地 又 加 。 执 行 命令 : 


| ý 
得 到 的 结果 如 图 2-13 所 示 。 
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king@debian:~/code/crawler$ python testForGaussi0.py 


Sp exci: 
1 累加 到 : 10 
从 1 累加 到 10 的 总 数 是 55 
输入 exit 退 出 程序 : 
1 累加 到 : 100 
从 1 累加 到 100 的 总 数 是 5050 
输入 exit 退 出 程序 : 
从 1 累加 到 : 1000 
从 1 累加 到 1000 的 总 数 是 s00500 
输入 exit 退 出 程序 : 
| 从 1 累加 到 : 18577 
从 1 累加 到 18577 的 总 数 是 172561753 
输入 exit 退 出 程序 : 


从 1 累加 到 : exit 
king@debian:~/code/crawler$ [] 





Æ 2-13 run testForGauss10.py 


经 过 验算 ， 聪 明 办 法 和 笨 办 法 得 到 的 结果 一 致 。for 循环 用 于 数字 循环 时 有 2 种 方法 生成 
Sequence， 一 种 是 range(1,100)， 另 一 种 是 xrange(1,100)。 在 使 用 for 循环 时 ， 这 两 种 方法 生 
成 的 Sequence 几乎 没有 区 别 。 但 如 果 循 环 数 比 较 大 的 情况 下 建议 使 用 xrange， 因 为 range 是 
直接 生成 了 一 个 列表 ， 而 xrange 则 是 生成 了 一 个 生成 器 。 

仔细 看 下 for 循环 的 表达 式 ，Sequence 是 一 个 序列 ， 说 明 for 循环 不 仅仅 适用 于 数字 形式 
的 循环 ， 比 如 可 以 将 文件 放 入 列表 中 作为 一 个 序列 ， 然 后 对 文件 进行 操作 。 


2.2.3 ”无限 循环 一 一 while 


既然 有 有 限 循环 ， 当 然 就 有 无 限 循环 了 。 无 限 循环 的 作用 是 ， 只 要 不 满足 某 种 条 件 ， 就 
一 直 循环 下 去 ， 直 到 满足 条 件 为 止 。While 循环 表达 形式 如 下 : 





【示例 2-8) Linux 终端 登录 就 是 一 个 类 似 while 循环 的 示例 。 下 面 模拟 Linux 终端 登录 ， 
编写 testWhileSimulateLogin.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 





testWhileSimulateLogin.py 的 代码 如 下 : 
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输入 :wq， 保 存 testWhileSimulateLogin.py. testWhileSimulateLogin.py 脚本 模拟 Linux 登 
录 ， 如 果 输 入 了 正确 的 密码 才 退 出 程序 ， 输 入 了 错误 的 密码 则 给 出 相应 的 提示 ， 直 到 输入 正 
确 为 止 。 因 为 不 知道 会 输入 多 少 次 才 会 退出 ， 所 以 这 里 使 用 while 循环 正好 。 执 行 命令 : 


得 到 的 结果 如 图 2-14 所 示 。 
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king@debian:~/code/crawler$ [] 
图 2-14 run testWhileSimulateLogin.py 


实际 上 目前 的 终端 登录 都 有 次 数 限制 ， 不 可 能 这 样 无 限 地 输入 密码 进行 测试 ， 否 则 就 会 
被 暴力 破解 。 正 好 这 个 程序 没有 限制 ， 有 兴趣 的 可 以 自行 编写 程序 ， 实 验 一 下 暴力 破解 密 
码 。 


2.2.4 ”中断 循 环 一 一 continue、break 


continue 和 break 语句 都 只 能 作用 于 循环 之 中 ， 只 对 循环 起 作用 。continue 的 作用 是 ， 从 
continue 语句 开始 到 循环 结束 ， 之 间 所 有 的 语句 都 不 执行 ， 直 接 从 下 一 次 循环 重新 开始 ; 而 
break 语句 的 作用 是 退出 循环 ， 该 循环 结束 。 

【示例 2-9】 用 continue, break 来 做 一 个 随机 猜 数 字 的 游戏 。 先 给 定 一 个 数值 范围 ， 系 统 
在 给 定 的 范围 内 随机 选取 一 个 数 ， 然 后 来 猜 这 个 随机 数 是 多 少 ， 猜 对 了 直接 退出 ， 猜 错 了 系 
统 则 提示 猜 的 数字 与 随机 数 相 比 是 大 了 还 是 小 了 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


guessNum py 的 代码 如 下 : 
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输入 :wq， 保 存 guessNum.py. guestNum 先 指 定 了 一 个 1~100 的 随机 数 。 然 后 开始 猜 这 
个 随机 数 是 多 少 ， 一 般 来 说 猜 5 次 左右 就 可 以 猜 出 来 。 如 果 能 一 次 猜 到 这 个 随机 数 ， 有 这 么 
道 天 的 运气 还 是 赶紧 买 几 注 彩票 试 试 吧 。 执 行 命令 : 


| python guestNumpy 
得 到 的 结果 如 图 2-15 所 示 。 





ian:~/code/crawiers [] 


2-15 run guessNum.py 


试 一 下 ， 要 猜 多 少 次 才 会 猜 对 这 个 随机 数 。 
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一 般 来 说 ， 纯 粹 只 有 循环 而 没有 中 断 循 环 的 情况 很 少见 〈 特 别 是 在 while 循环 中 ) 。 大 





多 都 是 配对 出 现 的 ， 所 以 熟悉 了 循环 还 必须 掌握 中 断 循 环 的 方法 。 


2.2.5 ”异常 处 理 一 一 try except 

要 求 输入 的 数据 不 符合 要 求 ， 访 问 列表 、 元 组 下 标 超 出 范围 ,根据 key 访问 字典 中 的 
key 值 却 发 现 这 个 key 不 存在 …… 编 程 时 总 会 遇 上 种 种 意外 。 有 些 编程 语言 在 碰 到 程序 执行 
意外 错误 时 ， 系 统 提示 错误 ， 然 后 退出 程序 。 当 然 ，Python 也 是 这 样 处 理 的 ， 但 不 同 的 是 
Python 还 给 出 了 其 他 的 选择 。 

在 Python 中 ， 用 try 来 测试 可 能 出 现 异 常 的 语句 ， 然 后 用 except 来 处 理 可 能 出 现 的 异 
常 。try except 的 表达 形式 如 下 : 





意思 是 ， 尝 试 执行 语句 ， 如 果 出 现 某 个 异常 则 怎么 做 。 因 为 同一 个 语句 可 能 出 现 不 同 的 
异常 ， 所 以 也 会 给 出 不 同 的 解决 方法 。 另 外 ，try 还 可 以 配 以 else、finally 语句 一 起 使 用 ， 不 
过 这 种 情况 比较 少 ， 有 兴趣 的 朋友 可 以 自行 google 用 法 。 

【示例 2-10】 以 常见 的 输入 数据 异常 为 例 ， 编 写 testTryInput.py， 打 开 Putty 连接 到 
Linux， 执 行 命令 : 





testTryInput.py 的 代码 如 下 : 
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输入 :wq， 保 存 testTryInputpy。testTryInput.py 目的 是 创建 一 个 数字 列表 ， 在 创建 过 程 中 
尝试 各 种 异常 。 执 行 命令 : 


得 到 的 结果 如 图 2-16 所 示 。 
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列表 下 标 [-10,9]: 100 
oes 访问 列表 超出 范围 
输入 EXIT 退出 程序 
输入 列表 下 标 [-10,9]: 8 
列表 中 下 标 为 的 值 为 9 
输入 ExIT 退 出 程序 
输入 列表 下 标 [-10, 9]: EXIT 
输入 错误 ， 列 表 下 标 是 一 个 整数 


king@debian:~/code/crawler$ [| 





图 2-16 run testTryInput.py 


这 个 程序 就 是 针对 输入 出 现 的 异常 和 访问 列表 越界 的 异常 给 出 了 解决 方案 。 编 程 过 程 中 
总 会 遇 上 各 种 各 样 的 异常 。 考 虑 周到 一 点 ， 思 维 续 密 一 点 ， 善 用 try 一 点 ， 程 序 的 健壮 性 就 
不 止 强 一 点 点 。 


2.2.6 ”导入 模块 一 一 import 


个 人 看 来 ，Python 最 大 的 优点 不 是 简单 易学 ， 而 是 其 强大 的 模块 功能 。 前 面 写 的 一 个 程 
序 ， 后 面 就 可 以 将 它 当成 一 个 模块 导入 现在 的 程序 ， 取 其 精华 弃 其 糟粕 地 随意 使 用 。 最 理想 
的 情况 是 任何 一 个 功能 ， 只 要 写 一 次 ， 以 后 所 有 人 都 可 以 任 其 调用 。 代 码 重 用 性 高 得 可 怕 ， 
而 且 Python 还 可 以 根据 需求 将 C、C++、Java 等 程序 作为 模块 ， 随 意 取 用 。 这 是 为 什么 
Python 被 称 之 为 胶水 语言 的 原因 。 

Python2 的 标准 模块 〈 一 般 也 叫 Python 标准 库 ) 是 安装 Python 时 自 带 的 模块 ， 具 体 请 参 
考 网 页 https://docs.python.org/2.7/py-modindex.html。 它 包含 了 几乎 所 有 的 常用 功能 。 如 果 觉 
得 不 够 ， 没 关系 ， 可 以 用 pip 来 安装 第 三 方 的 模块 ， 这 个 模块 库 就 已 经 非常 强大 了 。 如 果 还 
不 够 ， 也 没关系 ， 还 有 强大 的 github， 全 世界 的 Pyther 在 背后 支持 你 。 找 到 适用 的 功能 程序 
导入 到 自己 程序 里 就 可 以 了 。 对 别人 程序 极度 不 放心 ， 非 要 自力 更 生 也 行 ， 那 就 辛苦 一 下 ， 
自己 写 个 程序 做 自己 独 有 的 模块 吧 。 

模块 导入 的 几 种 方式 如 下 ， 可 根据 需要 自行 选择 : 
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每 次 使 用 print 打印 时 ， 总 是 同一 个 颜色 。 能 不 能 使 用 不 同 的 颜色 打印 呢 ? 当然 可 以 ， 第 
三 方 模块 库 里 就 有 相关 的 模块 。 只 需要 使 用 pip 安装 即 可 ，github 仔细 找 找 应 该 也 能 找 得 
到 。 在 这 里 自力 更 生 ， 自 己 动手 写 一 个 最 符合 自己 要 求 的 彩色 打印 的 print。 


【示例 2-11】 编 写 testImportColorPrint.py， 将 它 作 为 模块 导入 到 其 他 的 python 程序 中 使 
用 。 打 开 Putty， 连 接 到 Linux， 执 行 命令 : 


testImportColorPrint.py 的 代码 如 下 : 
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输入 :wq， 保 存 testImportColorPrint.py。 这 里 只 写 入 了 黑色 、 红 色 、 绿 色 、 黄 色 、 蓝 色 和 
白色 这 几 种 颜色 。 如 需 添 加 其 他 的 颜色 请 自行 google 一 下 。 执 行 命令 : 





得 到 的 结果 如 图 2-17 所 示 。 


king@debian:~/code/crawler: hon _testImportColorPrint.py blue "I'm blue" 


king@debian:~/code/crawlers [] 





图 2-17 run testImportColorPrint.py 
彩色 打印 已 经 实现 了 《白色 打印 时 因为 背景 色 也 是 白色 ， 所 以 显示 不 明显 ) ， 下 面 是 将 
testImportColorPrint.py 当 作 模 块 导 入 到 其 他 Python 程序 中 供 其 使 用 。 


【示例 2-12】 无 须 太 复杂 ， 写 个 最 简单 的 testImport.py， 只 要 能 将 testImportColorPrint.py 
当成 模块 导入 使 用 即 可 。 执 行 命令 : 
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testImport.py 的 代码 如 下 : 








输入 :wq， 保 存 testImport.py. testImport.py 尝试 调用 testImportColorPrint.py 脚本 作为 模 
块 ， 调 用 该 脚本 的 类 放 到 自己 的 脚本 中 执行 。 执 行 命令 : 


| pythontestInportpy | 
得 到 的 结果 如 图 2-18 所 示 。 


/code/crawler: on testImport. 


输入 的 颜色 有 效 ,开始 彩色 打印 
输入 的 颜色 有 效 ,开始 彩色 打印 
输入 的 颜色 有 效 ,开始 彩色 打印 
输入 的 颜色 有 效 ,开始 彩色 打印 


| 输入 的 颜色 有 效 ,开始 彩色 打印 





[xingedebian:~/code/crawlers [| 


图 2-18 ”导入 模块 测试 


将 Python 程序 当成 模块 导入 的 先决 条 件 是 ， 这 两 个 程序 在 同一 目录 下 。 或 者 将 模块 化 的 


程序 (这 里 就 是 testImportColorPrint.py) 路 径 加 入 到 Python 的 系统 路 径 中 。 是 不 是 很 简 
单 呢 ? HX Python 就 是 这 么 简单 。 
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2.3 函数 和 类 


C、C++、jJava、Ruby、Perl、Lisp…… 在 笔者 所 知 的 编程 语言 之 中 ， 所 有 的 程序 都 是 由 
函数 和 类 组 成 的 。 可 以 说 任何 程序 里 面包 含 的 不 是 函数 就 是 类 ，Pyther 当然 也 不 例外 。 


2.3.1 函数 


曾经 有 一 句 非常 出 名 的 话 是 In Unix Everything Is A File， 在 Unix 中 所 有 的 一 切 都 是 文 
件 。 在 这 里 可 以 借鉴 一 下 ，In Python Everything Is A Function， 在 Python 程序 中 ， 所 有 的 一 
切 都 是 函数 。 这 是 典型 的 C 语言 写法 ， 把 所 需 的 功能 都 写成 一 个 一 个 的 函数 ， 然 后 由 函数 调 
用 函数 。 依 次 类 推 ， 最 终 完成 整个 程序 的 功能 。 

还 记得 上 节 提 过 的 暴力 破解 吗 ? 不 管用 什么 工具 ， 暴 力 破解 都 少不了 一 个 合适 的 字典 
(此 字典 非 彼 字典 ， 这 里 的 字典 指 的 是 一 个 包含 密码 的 文件 ， 也 就 是 一 个 密码 集 ， 而 不 是 
Python 的 变量 类 型 ) 。 当 然 网 上 有 很 多 的 密码 字典 可 供 下 载 ， 但 它们 要 么 太 大 遍历 一 次 需要 
太 多 的 时 间 ， 要 么 没有 针对 性 根本 就 不 包含 所 需 的 密码 。 如 果 已 知 了 一 些 可 能 是 密码 的 字符 
串 ， 完 全 可 以 根据 已 知 条 件 用 程序 编写 有 针对 性 的 字典 出 来 ， 这 样 会 节省 很 多 时 间 。 


【示例 2-13 】 现 在 来 编写 一 个 简单 的 程序 makePasswordFileFunction.py， 创 建 一 个 有 针对 
性 的 专用 密码 字典 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 





makePasswordFileFunction.py 的 代码 如 下 : 








Python WERS 
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Python MRE Scak 
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Python WEES 
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输入 :wq， 保 存 makePasswordFileFunction.py。makePasswordFileFunction.py 稍微 复杂 一 
点 点 ， 它 的 作用 就 是 根据 用 户 输入 的 “密码 元 素 ” 来 创建 一 个 字典 列表 。 该 脚本 将 输入 的 元 
素 根据 一 定 的 规则 修改 、 添 加 后 当 作 新 元 素 添 加 到 元 素 列表 中 去 。 最 后 将 元 素 列表 排列 组 合 
得 到 最 后 的 字典 列表 。 执 行 命令 : 


得 到 的 结果 如 图 2-19 所 示 。 





图 2-19 run makePasswordFileFunction.py 


纯 C 语言 的 写法 好 处 就 是 关系 简单 明了 ， 函 数 调用 一 目 了 然 。 但 如 果 调用 的 函数 过 多 ， 
就 难免 有 些 混乱 了 。 简 单 功能 的 程序 还 无 妨 ， 稍 大 一 点 项 目 就 有 些 吃力 了 。 


UA 要 添加 大 多 的 “密友 元素 ”， 这 个 程序 只 是 利用 了 Python 的 模块， 没有 优化 算法 。 如 
” 。 果 输 入 的 “密码 元 素 ” 超 过 了 20 个 ， 那 么 创建 密码 字典 的 时 间 会 非常 的 长 。 





2.3.2 类 

既然 有 了 In Python Everything Is A Fcuntion， 当 然 会 有 In Python Everything Is A Class。 
这 种 C++ 的 写法 就 是 把 所 有 相似 的 功能 都 封装 到 一 个 类 里 。 最 理想 的 情况 是 一 个 程序 只 有 一 
个 主 程序 ， 然 后 在 主 程序 里 实例 化 类 。 

【示例 2-14】 还 是 以 编写 密码 字典 为 例 ， 将 makePasswordFileFunction.py 改编 成 
makePasswordFileClass.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


makePasswordFileClass.py 的 代码 如 下 : 
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Python Pg Me sR SCA 
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Python WAER 
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输 入 :wq > 保存 makePasswordFileClass.py 。 makePasswordFileClass.py 和 
makePasswordFileFunction.py 实质 上 没什么 区 别 ， 只 是 一 个 使 用 的 是 C 语言 风格 的 函数 调 
用 ， 一 个 使 用 的 是 C++ 风格 的 类 实例 化 。 执 行 命令 : 

Python makePasswordFileClass.py 


得 到 的 结果 如 图 2-20 所 示 。 





2-20 run makePasswordFileClass.py 
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执行 结果 完全 一 样 。 这 种 C++ 的 写法 好 处 就 是 调用 过 程 简单 ， 不 再 关心 类 具体 的 实现 过 
程 ， 只 需要 调用 其 功能 即 可 ; 但 随 之 而 来 就 是 类 的 继承 、 函 数 重 载 等 麻烦 。 这 种 写法 在 写 大 
项 目 时 可 能 非常 有 用 。 个 人 写 小 程序 也 行 ， 那 就 没 那么 多 优势 了 。 


这 个 密码 还 有 个 问题 就 是 在 创建 密码 文件 前 并 没有 估算 磁盘 剩余 空间 是 否 足够 。 一 般 的 | 


解决 办 法 是 先 估算 密码 文件 的 大 小 ， 然 后 创建 一 个 大 小 相同 的 空 文件 。 能 创建 成 功 则 继 
续 运行 程序 ， 不 能 则 抛 出 异常 。 





D.A Python 代码 格式 


Python 是 一 门 新 兴 的 编程 语言 ， 在 格式 方面 与 其 他 大 众 语言 相差 不 大 ， 但 也 有 它 独 特 之 
处 ， 尤 其 是 代码 缩 进 。 在 其 他 的 编程 语言 中 ， 代 码 缩 进 大 多 是 为 了 美观 ， 程 序 、 函 数 的 开始 
结束 都 是 由 花 括号 来 控制 的 。 而 在 Python 中 却 不 一 样 ， 程 序 、 代 码 块 的 开始 结束 都 是 由 缩 进 
来 控制 的 。 所 以 ， 首 先 要 熟悉 的 就 是 Python 的 代码 缩 进 。 


2.4.1 Python 代码 缩 进 
Python 的 缩 进 一 般 来 说 是 4 个 空格 ， 先 严格 按照 这 种 缩 进 方法 来 写 个 测试 代码 。 





以 上 的 代码 中 ----| 代 表 4 个 空格 。 这 才 写 了 个 开头 就 得 40 个 空格 。 要 是 Python 只 能 这 样 
写 ， 那 笔者 还 是 宁愿 选择 C 或 者 Ct+。 好 在 还 有 备用 方案 ， 可 以 用 Tab ERER 4 个 空格 。 
这 样 的 好 处 就 是 少 按 了 很 多 次 空格 ， 坏 处 就 是 代码 不 好 移植 。 在 这 台电 脑 上 可 以 运行 的 程 
序 ， 换 台电 脑 可 能 就 无 法 直接 使 用 了 。 

既然 变通 了 ， 那 就 变通 到 底 好 了 。 实 际 上 这 也 是 目前 流行 的 做 法 ， 在 自己 的 代码 编辑 器 
上 将 Tab 键 设置 成 4 个 空格 就 可 以 了 。 比 如 Windows 下 的 notepad++ 就 可 以 在 “设置 | 首选 
项 | 语言 ”菜单 中 选中 以 空格 替代 。 其 他 的 Python IDE 中 都 有 类 似 的 设 定 ， 自 行 摸索 一 下 就 
可 以 了 。Linux 下 一 般 用 的 都 是 vi， 那 就 更 加 简单 了 。 在 /etc/vim/vimrc 或 者 ~/.vim/vimre 中 添 
加 代码 : 














有 的 vi 默认 将 tabstop 定义 成 了 8 个 空格 。 ) 
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Python 每 行 代码 前 的 缩 进 都 有 语法 和 逻辑 上 的 意义 。 在 严格 要 求 的 代码 缩 进 之 下 ， 代 码 
非常 整齐 规范 ， 赏 心 悦 目 ， 提 高 了 可 读 性 ， 在 一 定 程度 上 也 提高 了 可 维护 性 。 

至 于 Python 的 缩 进 规则 很 简单 。 简 单 说 就 是 ， 同 一 代码 块 纵向 对 齐 。 同 级 别 函 数 〈 不 存 
在 调用 关系 的 ) 纵向 对 齐 ， 每 次 对 齐 都 是 4 个 空格 的 倍数 。 如 果 违 反 这 些 规则 ，Python 是 不 
会 工作 的 ， 只 会 给 一 条 冷冰冰 的 异常 通知 : SyntaxError: invalid syntax. 


2.4.2 Python 命名 规则 

对 于 给 类 、 函 数 、 变 量 取 名 ， 只 要 不 违法 命名 规则 ， 取 任何 名 字 都 是 可 以 的 。 要 是 不 明 
白 类 、 函 数 、 变 量 的 作用 不 是 还 有 注释 吗 ? 的 确 是 这 样 的 。 但 如 果 能 “ 望 名 生 义 ” 那 又 何必 
去 添加 多 余 的 注释 呢 ? 另外 ， 统 一 的 命名 法 也 令 程序 看 起 来 赏心悦目 。 编 写 代码 不 能 以 书法 
让 人 愉悦 ， 那 就 以 名 字 和 格式 让 人 愉悦 吧 。 


1 . 匈牙利 命名 法 


据说 匈牙利 命名 法 是 一 位 叫 Charles Simonyi 的 匈牙利 程序 员 发 明 的 ， 后 来 他 在 微软 待 
了 儿 年 ， 于 是 这 种 命名 法 就 通过 微软 的 各 种 产品 和 文档 资料 向 世界 传播 开 了 。 这 种 命名 法 的 
出 发 点 是 把 变量 名 按 : 属性 + 类 型 + 对 象 描述 的 顺序 组 合 起 来 ， 以 使 程序 员 定义 变量 时 对 变量 
的 类 型 和 其 他 属性 有 直观 的 了 解 。 

这 种 命名 方法 的 确 很 好 。 可 惜 的 是 ，Python 的 参数 并 不 像 C、C++、Java 一 样 ， 声 明 变 
量 无 须 指定 变量 类 型 。 而 且 在 没 用 到 Python GUI 编程 前 也 不 会 遇 到 属性 、 对 象 什么 的 ， 所 以 
这 种 命名 法 还 是 等 到 使 用 GUI 编程 时 再 使 用 吧 。 


2 . 驼峰 命名 法 


骆驼 式 命名 法 CCamel-Case) 又 称 驼峰 命名 法 ， 是 计算 机 程序 编写 时 的 一 套 命名 规则 
(惯例 ) 。 正 如 它 的 名 称 CamelCase 所 表示 的 那样 ， 是 指 混 合 使 用 大 小 写字 母 来 构成 变量 和 
函数 的 名 字 。 

骆驼 式 命 名 法 就 是 当 变量 名 或 函 式 名 是 由 一 个 或 多 个 单词 连 在 一 起 ， 而 构成 的 唯一 识别 
字 时 ， 第 一 个 单词 以 小 写字 母 开 始 ;第 二 个 单词 的 首 字母 大 写 或 每 一 个 单词 的 首 字 母 都 采用 
大 写字 母 ， 例 如 : myFirstName、myLastName， 这 样 的 变量 名 看 上 去 就 像 骆 驼峰 一 样 此 起 彼 
伏 ， 故 得 名 。 驼 峰 命 名 法 又 分 为 小 驼峰 命名 法 和 大 驼峰 命名 法 。 

变量 和 函数 一 般 用 小 驼峰 法 标识 。 驶 峰 法 的 意思 是 : 除 第 一 个 单词 之 外 ， 其 他 单词 首 字 
母 大 写 。 壁 如 : 

def getUrl 

urlSre = u‘http://ww.baidu.com’ 


变量 urlSre 第 一 个 单词 是 全 部 小 写 ， 后 面 的 单词 首 字母 大 写 。 
相 比 小 驼峰 法 ， 大 驼峰 法 把 第 一 个 单词 的 首 字母 也 大 写 了 ， 有 时 它 也 被 称 之 为 帕斯卡 
(pascal) 命名 法 。 常 用 于 类 名 。 壁 如 : 
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Class MyLog (object) : 
3 . Guido 推荐 的 命名 规则 
Python 之 父 Guido 推荐 在 python 中 使 用 的 命名 方法 。 如 表 2-1 所 示 。 
表 2-1 PythonName 












Type Public Internal 


msi — 
Method Names low_with_under() 
Function/Method low_with_under 
Parameters 


Local Variables 


命名 约定 如 下 : 


© 所 谓 “内 部 (Internal ) ”表示 仅 模 块 内 可 用 ， 或 者 在 类 内 是 保护 或 私有 的 。 
© 用 单 下 划 线 (_) 开 头 表示 模块 变量 或 函数 是 protected 的 (使 用 import * from 时 不 会 
ae). 
@ 用 双 下 划 线 (_) 开 头 的 实例 变量 或 方法 表示 类 内 私有 。 
@ ”将 相关 的 类 和 顶级 函数 放 在 同一 个 模块 里 ， 不 像 Java， 没 必要 限制 一 个 类 一 个 模 
块 。 
© ”对 类 名 使 用 大 写字 母 开头 的 单词 (如 CapWords， 即 Pascal 风格 ) ， 但 是 模块 名 应 
该 用 小 写 加 下 划 线 的 方式 (如 lower with under.py ) ， 尽 管 已 经 有 很 多 现存 的 模块 
使 用 类 似 于 CapWords.py 这 样 的 命名 ， 但 现在 已 经 不 鼓励 这 样 做 ， 因 为 如 果 模 块 名 
碰巧 和 类 名 一 致 ， 这 会 让 人 困扰 。 
以 上 的 三 种 命名 规则 ， 可 以 任 选 一 种 或 者 组 合 使 用 ， 并 没有 强制 要 求 。 理 论 上 来 说 ， 选 
择 Python 推荐 的 命名 规则 比较 好 ， 这 也 是 Google 推荐 的 Python 命名 规则 。 但 这 事 也 可 以 这 
样 ， 你 拿 着 饮品 质问 店家 为 什么 上 面 写 着 建议 零售 价 3 块 ， 你 非 要 卖 我 5 块 ， 店 家 可 以 理 直 
气 壮 地 回复 ， 我 不 接受 这 个 建议 。 你 也 可 以 不 接受 Google 建议 ， 选 择 自 己 喜 欢 的 命名 方法 就 





_lower with _ under 






















_lower_with_under() 





_CAPS_WITH_UNDER 





_lower_with_under 





_lower_with_under (protected) or __lower_with_under 
(private) 







_lower_with_under() (protected) or 
__lower_with_under() (private) 
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好 ， 只 要 自己 能 看 懂 ， 交 流 无 障碍 就 可 以 了 。 


2.4.3 Python 代码 注释 

一 个 好 的 程序 员 ， 为 代码 添加 注释 是 编码 时 必须 要 做 的 ， 但 要 确保 注释 中 要 说 明 的 都 是 
重要 的 事情 ， 让 其 他 人 看 一 眼 就 知道 是 干什么 用 的 。 注 释 在 任何 语言 的 代码 中 都 非常 重要 ， 
没有 哪 一 种 语言 是 完全 不 需要 注释 的 。 在 Python 中 ， 注 释 还 有 其 他 的 作用 。Python 中 的 注释 
分 为 特殊 注释 、 单 行 注释 和 多 行 注释 。 


1 . Python 特殊 注释 


在 所 有 的 Python 代码 开头 都 有 这 两 句 CLE Windows 中 写 代 码 可 以 不 用 第 一 行 注释 ， 但 
为 了 移植 方便 ， 让 程序 能 直接 在 Linux 下 运行 还 是 加 上 这 行 比 较 好 )。 

以 上 特殊 注释 的 第 一 行 目的 是 指明 Python 编译 器 位 置 。 第 二 行 则 指定 了 该 程序 使 用 的 字 
符 编码 。 指 定 字符 编码 还 可 以 写成 : 


只 能 写成 这 两 种 形式 ， 字 符 编 码 可 以 任 选 ， 但 格式 一 个 字符 都 不 可 以 错 。 
2 . Python 单行 注释 


单行 注释 很 简单 。 不 管 在 代码 的 任何 位 置 ， 只 要 是 # 之 后 的 都 是 注释 。 但 仅 限 于 本 行 之 
内 ， 不 得 换行 。 单 行 注释 的 代码 如 下 : 


单行 注释 不 需要 刻意 地 对 齐 ， 避 免 出 现 SyntaxError: invalid syntax 的 异常 。 
3 . Python 多 行 注释 


Python 中 的 多 行 注释 采取 的 是 三 个 单 引 号 ”或 者 三 个 双 引 号 ””。 如 果 多 行 注 释 紧 跟着 定 
义 类 或 者 定义 函数 之 后 则 自动 变 成 了 该 类 或 者 函数 的 doc string。 什 么 是 doc string Ye? 简单 
地 说 就 是 模块 、 类 、 函 数 的 功能 注释 。 


【示例 2-15】 写 个 简单 的 例子 ， 一 试 就 清楚 了 。 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testAnnotation.py 的 代码 如 下 : 





在 testAnnotation.py 中 ， 第 17 行使 用 的 是 单行 注释 ， 第 19 行使 用 的 是 多 行 注释 。 其 他 
的 则 是 类 和 函数 的 doc string。 至 于 doc string 怎么 显示 也 挺 简单 的 。 打 开 Putty 连接 到 
Linux， 执 行 命令 : 





执行 结果 如 图 2-21 所 示 。 





king@debian:~$ cd code/crawler 四 
king@debian:~/code/crawler$ python 
python 2.7.9 (default, Mar 1 2015, 12:57:24) 
[GCC 4.9.2] on linux2 
"help", "copyright", "credits" or "license" for more information. 


SEH L ESOS 
注释 用 单 引号 和 双 引 号 没有 任何 区 别 


>>> 0 





图 2-21 注释 &doc string 
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注释 就 介绍 到 这 里 。 在 编程 时 不 加 入 注释 ， 当 时 可 能 没什么 问题 ， 待 到 以 后 维护 代码 时 
就 会 发 现 那 是 多 么 痛苦 的 事情 。 当 然 ， 如 果 打 死 都 不 做 那个 维护 代码 的 人 ， 那 就 无 所 谓 什么 
注释 不 注释 了 。 





2 è 5 Python 调试 


调试 是 Python 编程 中 非常 重要 的 一 环 。 程 序 出 现 什么 问题 ， 查 看 抛 出 的 异常 。 或 者 处 处 
加 print 和 log 找 出 错误 点 ， 再 慢 慢 地 反 推 ， 是 可 以 找到 问题 解决 问题 的 。 但 是 有 更 简单 的 方 
法 为 什么 非得 舍 易 取 难 呢 ? 

在 Linux 和 Windows 平台 有 很 多 的 第 三 方 调试 工具 ， 一 般 的 Python IDE 基本 也 自 带 了 
调试 工具 。 工 具 太 多 了 反而 不 好 选择 ， 而 且 也 不 是 随手 都 能 找到 第 三 方 调试 工具 的 。 这 里 仅 
示范 手头 上 必定 有 的 ，Python 自 带 的 调试 工具 。 其 他 的 第 三 方 调试 工具 都 大 同 小 异 ， 熟 悉 了 
最 简单 的 ， 其 他 的 也 就 无 师 自 通 了 。 





2.5.1 Windows 下 IDLE 调试 

先 写 个 简单 的 程序 来 做 示例 。 既 然 是 调试 ， 最 好 的 选择 莫 过 于 多 次 调用 函数 的 阶乘 了 ， 
这 个 程序 简单 又 明显 ， 适 合用 来 做 示例 。 打 开 IDLE， 单 击 菜单 栏 的 FilelINew File。 创 建 一 个 
新 文档 。 编 辑 代码 如 图 2-22 所 示 。 


at Run Options Window Help 
python 
Kee 


nefac(nr1) 


HO) HAVA En") 
请 输入 一 个 正 整数 :") 


， 要 求 输入 一 个 正 整 款 ， 退 出 重 来 吧 。"') 
in))) 





图 2-22 testWinDebugFactorial.py 


单 击 菜单 栏 FilelSave As， 选 择 保存 位 置 后 将 文件 保存 为 testWinDebugFactorial.py。 下 面 
开始 调试 testWinDebugFactorial.py。 
单 击 IDLE 菜单 栏 的 Run|Python Shell， 打 开 Python Shell， 如 图 2-23 所 示 。 
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File Edit Format [Run] Options Window Help 


27. 
Fle Edit Shel Debug Optons Window Heip 
Python 2.7.11 (v2.7. 11:6dib6s687775, Dec 52015, 20:40:30) [MSC v. 1500 64 bat 





Type “copyright”, “credits” or “license()" for more information. 





5 Cok 





Lr 22 Colo 


图 2-23 打开 Python Shell 
单 击 Python Shell 菜单 栏 的 Debugl|Debugger。 打 开 Debug Control 窗口 ， 如 图 2-24 所 


are 5 2016, 20:40:30) DISC v. 1600 4 bit 《一 
St on vin; 
Type “copyrieh * for nore inforration. 
eae ai Stack Veer 
>t aterepaa Stack Vierer 


WAR. Bh A—+ EM. BAERD’) 
Stack [ Source l = 5d x(n, fac (n))) 


F Locals I Globals 





2-24 打开 Debug Control 


然后 在 IDLE 窗口 为 代码 添加 断 点 。 所 谓 断 点 简单 地 说 就 是 调试 程序 时 需要 停顿 的 位 
置 。 一 般 在 函数 的 入 口 、 参 数 变 化 的 行 添加 。 这 里 只 在 fac 函数 入 口 添加 一 个 断 点 。 单 击 fac 
函数 入 口 行 ， 再 右 击 弹出 菜单 ， 选 择 Set Breakpoing， 如 图 2-25 所 示 。 
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#!/usr/bin/env python 
#-+- coding:GBK -+- 


def fadfol 


n= int (n) 
ValueError: 
int ( 输入 错误 ， 要 求 输入 一 个 正 整 数 ， 退 出 重 来 吧 。") 
“Md! = Sd’ %(n, fac(n))) 


if _name == ’__main_’: 


main( 2 





图 2-25 设置 断 点 
现在 可 以 开始 运行 调试 程序 了 ， 单 击 IDLE 窗口 菜单 栏 的 Run|Run Module， 如 图 2-26 所 


File Edit Shell Debug Options Window Help 

Python 2.7.11 (v2.7. 11:6dlb6a6G€776, Dee 6 2016, 20:40:30) [NSC v. 1600 64 bit ( 
ANDS4) } on win32 

Type “copyright”, “credits” or “Licerse|)" for more inforaation. 

‘tee om 


RESTART: C:\ser  \Desktop\tentWinDabugFactorial. py 


BARU OVI Wnt) 
rout RAT ERB” 


Esser, 
SARA, ENAA- TER ALERE) 
F Stack I Source Kal = KA Sin facin), 


F Locals F Globals 
lteatWinDebugFacterialpy:t: -medule>0 


"oman: 


obale cal 





Locals 





,_ <module'_builtin_ (buit-in)= 
Nore 
“CAW\\Users\)\tking)\\\es...\\testWinDebugFactorial py” 


“main! 





None 


2-26 ”运行 调试 程序 


单 击 Debug Control 窗口 的 Go 按钮 ， 开 始 运行 程序 ， 然 后 单 击 Debug Control 窗口 的 
Step 按钮 ， 逐 步 运行 程序 。 如 果 需 跳出 循环 或 者 跳出 函数 ， 则 单 击 Debug Control 窗口 的 Out 
按钮 。Debug Control 窗口 中 的 Stack 检查 框 显示 的 是 程序 当前 运行 位 置 ，Locals 检查 框 显示 
的 是 当前 变量 的 值 ， 如 图 2-27 所 示 。 
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#28 Python 基础 


Help. 
Python 2.7.11 (v2.7. 11:6d1b6a68#775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit ( + 
264)] on win32 


ght", “credits” or “license()” for more information. 











= RESTART: C: Weers\king \Deskt op\test¥inDebugFactorial. 
yee ys Jsers\king’ op sbugFactorial. py 


WRA-TERHA 








Fbdb’.rund, line 400: exec cmd in globals, locals 
‘_main_!.<module>(, line 21: main0 
|_main_'.main(, line 17: print(%d! = 9d! 96(n,fac(n))) 
|_main_‘fac(, line 8: return n*fac(n-1) 

+ main_‘fac0, line 8: return n*fac(n-1) 





Locals 








图 2-27 Debug Control 


通过 Debug 调试 很 容易 发 现 程序 中 的 错误 之 处 。 虽 然 这 个 Debug 工具 比较 简陋 ， 但 基本 
功能 都 还 齐全 ， 算 是 比较 好 用 的 一 款 Debug 工具 了 。 


2.5.2 Linux 下 pdb 调试 


Linux F Python 调试 工具 也 很 多 ， 但 最 简单 、 最 方便 的 可 能 就 是 pdb 了 。pdb 功能 齐 
全 ， 使 用 方便 ， 使 用 过 gdb 的 朋友 会 对 它 非 常熟 悉 ， 它 们 的 命令 几乎 是 一 模 一 样 的 。 先 写 个 
示范 程序 ， 用 pdb 调试 一 下 。 


【示例 2-16】 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testLinuxBugListExtremum.py 的 代码 如 下 : 








Python Mekk 属 


testLinuxBugListExtremum.py 程序 让 用 户 输入 一 组 整数 放 入 列表 中 ， 然 后 从 列表 中 挑选 
出 最 大 值 和 最 小 值 。 以 testLinuxBugListExtremum.py 为 例 ， 使 用 pdb 调试 。 

下 面 先 简单 地 介绍 一 下 pdb。pdb 在 Python 中 是 以 模块 的 形式 出 现 的 ， 它 是 Python 的 标 
准 库 。 可 以 在 Python 交互 环境 中 使 用 ， 如 图 2-28 所 示 。 





第 2 章 Python 基础 


[xingedebian:-~/code/crawlers python 

python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

ype "help", "copyright", "credits" or "license" for more information. 


[>>> import pdb 

>> import testLinuxBuglistExcremm 

>>> pdb.run ('testlinuxBugListExtremum.main") 
> <string>(1)<module>() 

(Pap) [| 





图 2-28 ”模块 式 使 用 pdb 


也 可 以 在 程序 中 间 插 入 一 段 程序 ， 相 当 于 在 一 般 IDE 里 面 打 上 断 点 ， 然 后 启动 debug, 
不 过 这 种 方式 是 hardcode 的 ， 如 图 2-29 所 示 。 


def getMinNum(List): 
# 获 取 列表 中 最 小 值 
num = List[0] 
for 1 in List[1:]: 
if num >= i: 
num = i 
return num 


if _name == '_main_': 
numList = getList() 
maxNum = getMaxNum (numList) 


print (u' 列 表 中 是 大 值 为 :sd wmaxNum) 





图 2-29 程序 内 使 用 pdb 


将 pdb 放 入 程序 内 ， 在 运行 程序 时 。 运 行 到 pdb 行 后 就 暂停 了 ， 然 后 开始 运行 pdb 程 
序 。 这 种 方式 需要 改动 程序 ， 还 是 比较 麻烦 。 

笔者 更 喜欢 最 后 一 种 方法 ， 命 令 行 启动 目标 程序 ， 加 上 -m 参数 调用 pdb 模块 ， 如 图 2-30 
所 示 。 


king@debian:~/code/crawler$ python -m testLinuxBugListExtremum.] 
> IT SE TTA i te: 


-> _author_ = ‘hstking hstking@hotmail.com* 


Documented commands (type help <topic>): 


be cont enable jump pp run unt 
c continue exit 1 a 2 until 
el a a list quit step up 
clear debug help on £ tbreak w 
commands disable ignore next restart u whatis 


condition down 3 P return unalias where 





2-30 ”命令 调用 pdb 模块 
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2-20 显示 了 pdb 的 所 有 命令 ， 这 里 只 说 明 最 常用 的 几 个 : 


list: 显示 程序 ， 可 以 带 参 数 。 比 如 显示 第 5 行 list 5. 

break: 添加 断 点 。 比 如 在 第 5 行 添加 断 点 break 5， 在 getList 函数 添加 断 点 break. 
run: 开始 运行 程序 。 

step: 单 步 运行 ， 进 入 函数 内 部 。 

next: 单 步 运行 ， 不 进入 函数 内 部 。 

print: 显示 参数 。 

quit: 退出 pdb。 


下 面 开始 调试 testLinuxBugListExtremum.py 程序 。 执 行 命令 : 





执行 结果 如 图 2-31 所 示 。 


| = ist ee 
|> /mnt/disk/sync/code/crawler/testLint iGListExtremum.py jule> 
= ‘hstking hstking@hotmail.com’ 


p == ' main ': 
numList = getList() 


maxNum = getMaxNum(numList) 
print tu" 列表 中 最 大 值 为 :sd，smaxNum) 
minNum = getMinNum(numList) 

print ta" 列表 中 最 小 值 为 :sd，sminum) 


) break getList 
E RIER /disk/sync/code/cravler/testLinuxBugListExtremum.py:8 


(Pdb), 


[Breakpoint 2 at PET ok/ sync/code/crawler/vestLinuxBugListExtremum.py:28 
Num 


sk/sync/code/crawler/testLinuxBugListExtremum. py: 38 


Disp Enb Where 
keep yes at /mnt/disk/sync/code/crawler/testLinuxBugListExtre| 


keep yes at /mnt/disk/sync/code/crawler/testLinuxBugListExtre| 


keep yes at /mnt/disk/sync/code/crawler/testLinuxBugListExtre, 








图 2-31 pdb 加 入 断 点 


执行 命令 run， 开 始 运行 程序 ， 函 数 外 的 行使 用 next 单 步 运 行 ， 到 了 函数 入 口 后 使 用 
step 单 步 运 行 。 中 途 使 用 print 命令 随时 监视 变量 变化 ， 如 图 2-32 所 示 。 
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[> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (15) getList () 


-> print ta" 结束 构建 列表 ， 请 按 回 车 ') 
(Pdb) 
Setar. 请 按 回 车 


> fant] disk/ syoed cone neues) easel iota py (16) getList() 
-> ee _inpuc(" 请 输入 一 个 整数 : 


Sires 10 

> fait disk/syoc/ code /exmuier/ceatlinesbogls strstremn. py (17)getList () 
-> if num == ' 

(Pdb) print num 

20 

(Pdb) next 

> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (19) getList () 


> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py(20)getList () 
-> num = int (num) 

(Pdb) 

|> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (25) getList () 
|-> numList.append (num) 

(Pdb) 

> /mnt/disk/sync/code/crawler/testLinuxBugListExtremum.py (12) getList() 
|-> while num: 

(Pdb) print numList 

[10] 

(Pdb) [] 





图 2-32 调试 testLinuxDebugListExtremum.py 


调试 完毕 后 输入 quit， 退 出 pdb. pdb 没有 GUI， 用 起 来 似乎 没有 那么 直观 。 用 习惯 了 也 
还 挺 方便 的 。 如 果 偏 爱 GUI， 那 还 是 找 个 Python IDE 吧 ，Eclipse + pydev 就 很 方便 了 。 也 是 
多 平台 通用 ， 除 了 块头 大 一 点 ， 没 什么 缺点 。 

注意 : pdb 是 Python 调试 工具 ， 它 也 是 Python 的 标准 模块 之 一 ， 所 以 也 可 以 用 import 
将 它 导 入 到 程序 中 使 用 。 


2.6 sane 


Python 的 知识 点 远 不 止 这 一 点 ， 但 读者 了 解 了 这 些 ， 又 有 一 点 其 他 编程 语言 的 基础 ， 基 
本 就 可 以 用 Python 来 解决 一 些小 问题 了 。 如 果 需 要 继续 深入 ， 请 自行 参考 教程 或 自行 
Google. Python 是 一 门 黏 性 非常 强 的 语言 ， 它 可 以 调用 别 的 语言 来 编写 自己 的 模块 ， 用 来 弥 
补 自己 的 不 足 ， 因 此 也 被 称 为 胶水 语言 。 虽 然 Python 易学 难 精 ， 但 它 是 一 个 非常 有 用 的 编程 
语言 ， 通 用 各 大 平台 ， 值 得 投入 精力 深入 学 习 。 
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Python 的 基础 部 分 已 经 学 完了 ， 下 一 步 可 以 开始 写 Python 程序 了 。 因 为 Python 程序 无 
须 编 译 直 接 执行 ， 所 以 也 可 以 称 之 为 脚本 。 在 这 里 笔者 把 大 一 点 的 、 复 杂 点 的 Python 脚本 称 
之 为 程序 ， 把 简单 的 Python 程序 称 之 为 脚本 。 


3.1 九 九 乘法 表 


编写 程序 ， 由 简 到 难 。 似 乎 没有 比 九 九 乘法 表 更 简单 的 程序 了 吧 ， 那 就 从 九 九 乘法 表 开 
始 。Python 的 结构 集合 了 C 和 C++ 的 优点 ， 语 法 结构 也 相差 不 远 ， 在 编程 时 只 需 重点 注意 格 
式 〈 其 实 就 是 空格 ) 就 可 以 了 。 


3.1.1 Project 分 析 


九 九 乘法 表 ， 从 小 学 就 开始 学 习 ， 每 个 人 都 会 背 。 如 果 把 这 个 表格 排列 整齐 一 点 就 会 发 
现 它 呈现 出 一 个 边 长 为 9 的 直角 三 角形 。 这 个 图 形 从 左 到 右 横向 是 呈 线 性 递 加 的 。 这 样 的 话 
给 出 一 个 for 循环 正 合 适 。 而 纵向 是 也 有 限 (9 行 ) 递 加 的 ， 再 给 出 一 个 for 循环 就 可 以 了 。 


3.1.2 Project 实施 
【示例 3-1】 编写 table9x9.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


table9x9.py 的 代码 如 下 : 


第 3 章 简单 的 Py 








输入 :wq， 保 存 table9x9.py。table9x9.py 用 于 打印 一 个 九 九 乘法 表格 。 执 行 命令 : 
| python tablegxg py 


得 到 的 结果 如 图 3-1 所 示 。 





Se F python table9x9.py 


kingi 
| 开始 打印 9x9 的 乘法 表格 
1 

2X2= 4 

2X3= 6 

2X4= 8 

2X5=10 4X5=20 

2X6=12 4X6=24 

2X7=14 4X7=28 TX7=49 

2X8=16 3xe=24 4X8=32 7x8=56 8x8=64 


2X9=18 3X9=27 4X9=36 TX9=63 。 8X9=72 





|king@debian:~/code/crawler$ [] 


图 3-1 乘法 表 
十 几 行 的 代码 ， 如 果 愿 意 精简 ， 甚 至 可 以 把 代码 压缩 到 十 行 以 内 。 足 够 简单 了 吧 。 
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3.2 RIRA 


斐 波 那 契 数列 (Fibonacci sequence) ， 又 称 黄金 分 割 数列 ， 因 数学 家 列 昂 纳 多 。 斐 波 那 
42 (Leonardoda Fibonacci ) 以 兔子 繁殖 为 例子 而 引入 ， 故 又 称 为 “兔子 数列 ”， 指 的 是 这 样 
一 个 数列 : 0、1、1、2、3、5、8、13、21、34……: 在 数学 上 ， 斐 波 那 契 数列 以 如 下 被 以 递归 
的 方法 定义 : F (0) =0、F (1) =1, F (n) =F(n-1)+F(n-2) (nz2，nEN*) 。 


3.2.1 Project 分 析 

从 斐 波 那 契 数列 的 定义 上 可 以 看 出 ， 求 斐 波 那 契 数 列 最 正统 的 方法 就 是 函数 递归 了 。 不 
过 ， 对 于 Python 而 言 ， 有 更 加 简单 的 方法 操作 。 这 得 益 于 Python 独 有 的 数据 类 型 一 一 列 
Ko Python 列表 可 以 使 用 append 方法 在 列表 的 尾部 追加 数据 。 这 样 一 来 ， 求 斐 波 那 契 数 列 就 
成 了 简单 的 加 法 游戏 ， 无 须 递归 求解 了 【可惜 C 语言 中 没有 变 长 数列 ， 否 则 在 C 语言 中 求 斐 
波 那 契 数列 也 简单 了 ) 。 


3.2.2 Project 实施 
【示例 3-2】 编 写 fibonacci.jpy， 打 开 Putty 连接 到 Linux， 执 行 命令 : 





fibonacci.py 的 代码 如 下 : 
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输入 :wq， 保 存 fibonacci.py。fibonacci.py 用 于 创建 一 个 定 长 列表 ， 该 列表 就 是 斐 波 那 契 
数列 。 执 行 命令 : 


| 
得 到 的 结果 如 图 3-2 所 示 。 


king@debian:~/code/crawler$ python fibonacci.py 
请 输入 fibonacci 数 列 的 长 度 (3-50) :20 

输入 的 长 度 符合 标准 ， 继 续 运 行 

得 到 的 fibonacci 数 列 为 : 


[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 
4161) 


king@debian:~/code/crawlers [] 





图 3-2 fibonacci 数列 
Python 有 独特 的 列表 类 型 ， 在 获取 递归 队列 时 有 独特 的 优势 。 


3.3 概率 计算 


将 理想 状态 绝对 无 误差 的 10 个 同样 的 小 球 从 1~10 标号 ， 然 后 随机 从 中 选 出 1 个 小 球 。 
如 果 选 取 的 次 数 足够 多 ， 就 可 以 计算 各 个 小 球 被 选取 出 来 的 概率 。 编 写 一 个 Python 程序 来 算 
一 算 ， 看 看 老 天 偏 爱 哪个 数 。 


3.3.1 Project 分析 


这 是 一 个 随机 数 的 问题 。Python 有 个 random 模块 ， 专 门 用 来 解决 这 类 问题 。 据 说 
Python 用 random 选取 出 来 的 随机 数 都 是 伪 随 机 数 。 不 过 也 没关系 ， 只 需要 算出 大 致 的 结果 
就 可 以 了 。 没 计算 之 前 ， 个 人 认为 每 个 球 被 选取 出 来 的 概率 都 一 样 。 下 面 就 来 算 算 看 。 
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3.3.2 Project 实施 
【示例 3-3 】 编 写 ball.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 





ball.py 的 代码 如 下 : 





执行 命令 : 
| illj 


得 到 的 结果 如 图 3-3 所 示 。 
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kingêdebian:~/code/crawler$ 
R 3-3 ARRE 


果然 如 此 ， 每 个 球 选 取 的 概率 差不多 。 选 取 的 次 数 越 多 ， 这 个 趋势 就 越 明 显 。 那 就 是 
说 ， 在 理想 状态 下 ， 所 有 球 被 选取 的 概率 是 一 样 的 。 






这 种 选取 小 球 概率 的 计算 方法 只 是 一 种 理想 状态 的 算法 。 类 似 于 丢 硬币 出 现 正 反面 的 概 
率 ， 理 论 上 应 该 是 一 半 对 一 半 ， 但 实际 上 由 于 硬币 材质 的 缘故 ， 丢 硬币 的 次 数 越 多 ， 正 
反面 出 现 的 概率 差距 就 越 大 。 


3.4 读 写 文件 


读 写 文件 是 最 常见 的 IO 操作 。Python 内 置 了 读 写 文件 的 函数 ， 用 法 和 C 是 兼容 的 。 在 
磁盘 上 读 写 文件 的 功能 都 是 由 操作 系统 提供 的 ， 现 代 操作 系统 不 允许 普通 的 程序 直接 操作 磁 
盘 ， 所 以 ， 读 写 文件 就 是 请 求 操 作 系统 打开 一 个 文件 对 象 通常 称 为 文件 描述 符 ) ， 然 后 ， 
通过 操作 系统 提供 的 接口 从 这 个 文件 对 象 中 读 取 数 据 〈 读 文件 ) ， 或 者 把 数据 写 入 这 个 文件 
对 象 〈 写 文件 ) 。 


3.4.1 Project 分 析 
Python 使 用 内 置 函 数 open 来 读 写 文件 。 查 看 open 函数 的 帮助 文档 。 执 行 命令 : 


执行 的 结果 如 图 3-4 所 示 。 
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elp on built-in function open in module _ builtin : 


(人 
open(name[, mode[, buffering]]) -> file object 


Open a file using the file() type, returns a file object. This is the 
preferred way to open a file. See file. doc for further information. 





图 3-4 help open 
3-4 中 的 Name 是 需要 操作 的 文件 名 ，mode 是 模式 。 这 个 模式 共有 7 种 ， 如 表 3-1 所 


表 3-1 Python Open Mode 
EE HA 
| O | 以 号 方式 打开 文件 ， 可 向 文件 写 入 信息 。 如 文件 存在 ， 则 清空 该 文件 ， 再 写 入 新 内 容 
| 。 | 以 追加 模式 打开 文件 ， 如 果 文件 不 存在 ， 则 创建 
以 读 写 方式 打开 文件 ， 可 对 文件 进行 读 和 写 操作 
消除 文件 内 容 ， 然 后 以 读 写 方式 打开 文件 
以 读 写 方式 打开 文件 ， 并 把 文件 指针 移 到 文件 尾 
| 。 | 以 = 进 制 模式 打开 文件 ， 而 不 是 以 文本 模式 


这 7 中 模式 可 以 组 合 使 用 。 下 面 将 用 Python 创建 一 个 文件 ， 并 写 入 、 读 取 内 容 。 





3.4.2 project 实施 
【示例 3-4】 编 写 operaFile.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 





operaFile.py 的 代码 如 下 : 
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执行 命令 : 
| python operaFile.py 
得 到 的 结果 如 图 3-5 所 示 。 


est 

创建 一 个 名 字 为 cest .txt 的 文件 ， 并 在 其 中 写 入 Hello Python 
先 得 保证 test .txt 不 存在 

1s: 无 法 访问 cest .txt: 没有 那个 文件 或 目录 

现在 再 来 创建 文件 并 写 入 内 容 


不 要 忘记 用 close 关 闭 文件 哦 
再 来 看 看 cest .txt 是 否 存 在 ， 和 内 容 


-rw-r--z-- 1 king king 12 9 月 11 21:40 test.txt 
Hello Python 


如 何 避 免 open 文 件 失败 的 问题 呢 ? 
使 用 with as 就 可 以 了 
esr.zxc 的 内 容 为 :Hello Python 
[xingedebian:~/code/crawlers 


图 3-5 Python 读 写 文件 


Python 对 文件 的 操作 跟 C 很 类 似 ， 但 功能 远 比 C 要 丰富 。 例 如 按 行 读 取 文 件 ， 多 行 读 取 
文件 等 等 。C 语言 的 优势 是 快 ，Python 的 优势 是 模块 丰富 。 





3.5 本章 小 结 


本 章 的 几 个 Python 小 程序 都 比较 简单 。 程 序 简单 没关系 ， 只 要 可 以 解决 问题 就 行 。 学 习 
Python 最 快 的 方法 就 是 多 写 程序 ， 用 程序 解决 实际 问题 。Python 并 不 复杂 ， 多 写 、 多 做 、 多 
练 很 快 就 能 掌握 。 
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Python 最 强大 的 方面 就 体现 在 它 那 近 乎 无 限 的 模块 库 上 。 相 信 没 有 人 能 熟悉 所 有 的 模块 
功能 ， 也 没 这 个 必要 。 只 需要 了 解 标准 模块 库 就 可 以 解决 大 部 分 的 问题 了 ， 特 殊 需 求 先 找 第 
三 方 的 模块 。 如 果 还 是 解决 不 了 问题 ， 那 就 到 github 磁 碰 运气 。 如 果实 在 是 运气 不 佳 ， 那 就 
自己 动手 丰衣足食 吧 。Python 2.7 标准 模块 库 的 官方 文档 可 参考 https://docs.python.org/2.7/py- 
modindex.html。 本 章 只 讲解 与 网 络 扑 虫 有 关 的 常用 模块 。 


Python 标准 库 之 urllib2 模块 


涉及 网 络 这 块 ， 必 不 可 少 的 模块 就 是 urllib2 了 。 顾 名 思 义 这 个 模块 主要 负责 打开 URL 和 
HTTP 协议 之 类 的 ， 还 有 一 个 模块 叫 urllib， 但 它们 并 不 是 升级 版 的 关系 。 上 有 具体 可 见 google 文章 
Python: difference between urllib and urllib2， 讲 得 很 透彻 ， 这 里 就 不 重复 了 。urllib2 模块 的 官方 文档 
可 参考 https://docs.python.org/2.7/library/urllib2.html#module-urllib2。 


4.1.1 urllib2 请 求 返回 网 页 
urllib2 最 简单 的 应 用 就 是 urllie2.urlopen 了 ， 函 数 使 用 如 下 : 


urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, 
context]]]]]] 


按照 官方 文档 ，urllib2.urlopen 可 以 打开 HTTP. HTTPS, FTP 协议 的 URL。 主 要 应 用 于 
HTTP 协议 。 它 参数 中 以 ca 开头 的 都 是 跟 身份 验证 有 关 ， 不 太 常 用 。data 参数 是 以 post 方式 
提交 URL 时 使 用 的 。 最 常用 就 只 有 URL 和 timeout BACT. url 参数 是 提交 的 网 络 地 址 (地 
引 全 称 ， 前 端 需 协 议 名 ， 后 端 需 端口 ， 比 如 http://192.168.1.1:80)，timeout 是 超时 时 间 设 置 。 
函数 返回 对 象 有 3 个 额外 的 使 用 方法 。geturl0 函 数 返回 response 的 url 信息 ， 常 用 于 url 
重 定 向 的 情况 。info0 函 数 返回 response 的 基本 信息 。getcode0) 函 数 返回 response 的 状态 代 
码 ， 最 常见 的 代码 是 200 服务 器 成 功 返 回 网 页 ，404 请 求 的 网 页 不 存在 ，503 服务 器 暂时 不 可 
用 。 
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【示例 4-1】 测试 使 用 urllib2 模块 打开 百度 的 首页 。 编 写 testUrllib2.py， 打 开 Putty 连接 
到 Linux， 执 行 命令 : 


testUrllib2.py 的 代码 如 下 : 


输入 :wq， 保 存 testUrllib2.py。testUrllib2.py 调用 urllib2 模块 请 求 百度 的 主页 ， 显 示 返 回 
的 信息 并 将 服务 器 答复 的 数据 保存 到 baidu.txt 中 以 备查 询 。 执 行 命令 : 





Python WAEREA 


得 到 的 结果 如 图 4-1 所 示 。 


king@debian:~/code/crawler$ python testUrllib2.py 
获取 azl 信 息 ，zesponse,gecurl() 


FP ntep://www-barda-com 
AIEEE, response getcode() 
Bre: 


te: 
ent-Type: text/html; charset=utf-8 


D707E3BD:FG=1; expires=Thu, 31-Dec-3 
iomain=.baidu.com 
BD707E3BD; expires=Thu, 31-Dec-37 23 
55:55 GMT; max-age=2147483647; path=/: ain=.baidu.com 
Set-Cookie: PSTM=1467261660; expires=7 1-Dec-37 23:55:55 GMT; max-age=214748 
S647; path=/; domain=.baidu.com 
Set-Cookie: BDSVRTM=0; path=/ 
Set-Cookie: BD HOME=0; path=/ 
Set-Cookie: H_PS_PSSID=1461_205* +_20388_20417_17001_15297_12370; path=/; d 
jomain=.baidu.com 
PSP: CP=" OTI DSP COR IVA OU ~ . 
[Cache-Control: private 
|cxy_al1: baidu+ffess0241- > 34d7816cf3df7f8 


2001¢523 


获取 的 网 页 内 容 已 存 入 当前 目录 的 baidu.rzxc 中 ， 请 自行 查看 
kingêdebian:~/code/crawler$ 








4-1 run testUrllib2.py 


从 baidu.txt 的 结果 可 以 看 出 百度 首页 的 页 面 虽然 很 简洁 ， 但 内 容 还 是 很 丰富 的 。 最 简单 
的 urllib2 用 法 就 是 这 样 了 。 至 于 那些 跟 身 份 验证 有 关 的 参数 ， 如 有 需要 请 自行 参考 官方 文档 
或 google。 


4.1.2 urllib2 使 用 代理 访问 网 页 


在 使 用 网 络 爬 虫 时 ， 有 的 网 站 拒绝 了 一 些 IP 的 直接 访问 。 这 时 就 不 得 不 利用 代理 了 。 
urllib2 添加 代理 的 方式 不 止 一 种 。 这 里 选择 最 简单 也 是 最 直接 的 一 种 为 例 ， 至 于 免费 的 代 
理 ， 网 络 上 很 多 ， 可 自行 搜索 一 下 ， 选 择 一 个 确定 可 用 的 Proxy， 这 里 笔者 选择 的 是 从 
www.youdaili.net 中 获取 的 代理 36.7.172.18:82@HTTP。 


【示例 4-2】 编 写 testUrllib2WithProxy.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


testUrllib2WithProxy.py 的 代码 如 下 : 
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输入 :wq， 保 存 testUrllib2WithProxy.py。testUrllib2WithProxy.py 将 使 用 代理 来 访问 百度 
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的 首页 ， 并 设 定 了 一 个 特征 词 。 如 果 能 在 返回 的 结果 中 取得 这 个 特征 词 就 说 明 该 proxy 是 可 
用 的 。 执 行 命令 : 
本 


得 到 的 结果 如 图 4-2 所 示 。 


feing@deDien:-/code/cravlers python testUrllib2WithProxy.py http://36.7.172.16:82 + 
| 输入 的 hrzp 代 理 服务 器 符合 标准 
已 取得 特征 词 ， 该 代理 可 用 


|xingedebian:~/code/crawlers [] 





图 4-2 run testUrllib2WithProxy.py 


至 此 ，urllib2 使 用 代理 打开 网 页 测试 完毕 。 这 个 程序 采用 的 是 函数 与 类 混合 的 形式 。 这 
个 程序 无 须 修改 即 可 作为 模块 导入 到 其 他 程序 中 用 于 测试 Proxy 是 否 可 用 。 


urllib2 是 Python 中 使 用 率 非 常 高 的 模块 。 有 很 多 第 三 方 模块 都 是 通过 包装 这 个 模块 的 功 
能 而 开发 出 来 的 。 这 是 个 必须 掌握 的 模块 。 





4.1.3 urllib2 修改 header 


在 使 用 网 络 仆 虫 时， 有 一 些 站 点 不 喜欢 被 程序 〈 非 人 为 访问 ) 访问 ,会 检查 连接 者 的 
“身份 证 ”。 默 认 情 况 下 urllib2 把 自己 的 版 本 号 Python-urllib/x.y (x 和 y 是 Python 主 版 本 和 
次 版 本 号 ， 例 如 Python-urllib/2.7) 作为 “身份 证 号 码 ” 来 通过 检查 。 这 个 “身份 证 号 码 ” 可 
能 会 让 站 点 迷惑 ， 或 者 干脆 不 工作 。 这 时 可 以 让 Python 程序 冒充 浏览 器 访问 网 站 。 网 站 是 通 
过 浏览 器 发 送 过 来 的 User-Agent 的 值 来 确认 浏览 器 身份 的 。 用 urllib2 创建 一 个 请 求 对 象 ， 并 
给 它 一 个 包含 头 数据 的 字典 ， 修 改 User-Agent 欺骗 网 站 。 一 般 来 说 ， 把 User-Agent 修改 成 
Internet Explorer 是 最 安全 的 ， 改 成 其 他 的 也 行 。 
先 将 准备 工作 做 好 ， 将 所 有 常见 的 User-Agent 全 部 放 到 一 个 userAgents.py 文件 中 ， 以 字 
典 的 形式 保存 起 来 ， 方 便 以 后 当成 模块 导入 使 用 。userAgents.py 的 代码 如 下 : 
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userAgents.py 里 只 包含 了 最 常用 的 User-Agent， 如 有 特殊 需要 可 以 继续 添加 。 但 在 使 用 
网 络 息 虫 时 最 好 用 最 常见 的 那些 User-Agent， 以 免 被 网 站 拒绝 访问 。 


【示例 4-3】 准 备 工 作 完 毕 后 ， 开 始 编写 testUrllib2ModifyHeaderpy。 打 开 Putty 连接 到 
Linux， 执 行 命令 : 


testUrllib2ModifyHeaderpy 的 代码 如 下 : 
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输入 :wq， 保 存 testUrllib2ModifyHeaderpy。testUrllib2ModifyHeaderpy 使 用 了 2 个 不 同 
的 浏览 器 header 访问 有 道 翻译 的 主页 ， 并 将 返回 的 结果 保存 起 来 。 执 行 命令 : 


得 到 了 1.html 和 2.html， 打 开 这 两 个 网 页 比较 一 下 ， 得 到 的 结果 如 图 4-3 所 示 。 
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> C Dfile//r/y% & O Yo 
Ei ea 门 从 Firefox 导入 (SE G Shee 
Jser-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999 


ffrio 词典 Bs 





C D filey//F/sync/codiy & O Y æ 


EH oR 口 从 Firefox 呈 和 EEE Games Yamas 
~ User-AgentMozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident5 0; 



















































翻译 giz 网 页 


自动 检测 语言 


-C 


有 道 专业 翻译 - 24 小 时 精准 人 工 翻 译 





4-3 runtestUrllib2ModifyHeader.py 


urllib2 添加 Header 打开 网 页 测试 完毕 。 同 一 网 站 会 给 不 同 的 浏览 器 返回 不 同 的 内 容 。 所 
以 在 使 用 网 络 息 虫 时 ， 如 果 条 件 允 许 尽 可 能 添加 一 个 固定 的 User-Agent. 


4 .2 python 标准 库 一 logging 模块 


Logging 模块 ， 顾名思义 就 是 针对 日 志 的 。 到 目前 为 止 ， 所 有 的 程序 标准 输出 输出 到 
屏幕 ) 都 是 使 用 的 print 函数 。Logging 模块 可 以 替代 print 函数 的 功能 ， 并 能 将 标准 输出 输入 
到 日 志文 件 保存 起 来 ， 而 且 利 用 logging 模块 可 以 部 分 替代 debug 的 功能 ， 给 程序 排 错 。 


4.2.1 简 述 logging 模块 

首先 要 说 到 的 是 logging 模块 的 几 个 级 别 。 默 认 情况 下 logging 模块 有 6 个 级 别 。 它 们 分 
别 是 NOTSET 值 为 0、DEBUG 值 为 10、INFO 值 为 20、WARNING 值 为 30、ERROR 值 为 
40、CRITICAL 值 为 50〈 也 可 以 自 定 义 级 别 ) 。 这 些 级 别 的 用 处 是 ， 先 将 自己 的 日 志 定 一 个 
级 别 ，logging 模块 发 出 的 信息 级 别 高 于 定义 的 级 别 ， 将 在 标准 输出 〈 屏 幕 ) 显示 出 来 。 发 出 
的 信息 级 别 低 于 定义 的 级 别 则 略 过 。 如 果 未 定义 级 别 ， 默 认定 义 的 级 别 是 WARNING. 

先 测试 一 下 。 在 Windows 中 打开 IDLE， 执 行 命令 : 

import logging 
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执行 结果 如 图 4-4 所 示 。 


File Edit Shell 


Debug Options Window Help 
ta ne 7.11 (v2.7. 11:6d1b6a68f775, Dec 5 2015, 20:40:30) [MSC v. 1500 64 bit (| 
AMDA, in32 

Type ght", “credits” or “license()" for more information. 

>>> inport wor ise 


333 这 Se 








ag debug message’) 
itol info essege) 
C varning message’) 
Yearning mi 
ror Error nessage’) 


,Cr iti eitical message’) 
qc: seotieritical message 





4-4 logging 级 别 
使 用 logging 最 简单 的 方法 就 是 logging.basicConfig. logging.basicConfig 的 应 用 方法 为 : 


这 个 函数 可 用 的 参数 有 : 

© filename: 用 指定 的 文件 名 创建 FiledHandler (后 边 会 具体 讲解 handler 的 概念 ) ， 
这 样 日 志 会 被 存储 在 指定 的 文件 中 。 

© filemode: 文件 打开 方式 ， 在 指定 了 filename 时 使 用 这 个 参数 ， 默 认 值 为 “a" 还 可 指 
RAW”. 

© format; 指定 handler 使 用 的 日 志 显示 格式 。 

© datefmt: 指定 日 期 时 间 格式 。 

© level: 设置 rootlogger ( 后边 会 讲解 具体 概念 ) 的 日 志 级 别 。 

@ stream: 用 指定 的 stream 创建 StreamHandler。 可 以 指定 输出 到 sys.stderr,sys.stdout 
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或 者 文件 ， 默 认为 sys.stderr。 若 同时 列 出 了 filename 和 stream 两 个 参数 ， 则 stream 
参数 会 被 忽略 。 


参数 中 的 format 参数 可 能 用 到 的 格式 化 串 : 


%(name)s: Logger 的 名 字 。 

Y(levelno)s: 数字 形式 的 日 志 级 别 。 

%(levelname)s: 文本 形式 的 日 志 级 别 。 

%(pathname)s: 调用 日 志 输出 函数 的 模块 的 完整 路 径 名 ， 可 能 没有 。 
%(filename)s: 调用 日 志 输 出 函数 的 模块 的 文件 名 。 

%(module)s: 调用 日 志 输 出 函数 的 模块 名 。 

%(funcName)s: 调用 日 志 输出 函数 的 函数 名 。 

%(lineno)d: 调用 日 志 输出 函数 的 语句 所 在 的 代码 行 。 

%(created)f: 当前 时 间 ， 用 UNIX 标准 的 表示 时 间 的 浮 点 数 表示 。 
%(relativeCreated)d: 输出 日 志 信息 时 ， 自 Logger 创建 以 来 的 毫秒 数 。 
%asctime)s: 字符 串 形式 的 当前 时 间 。 默 认 格式 是 “2003-07-08 16:49:45,896", 1& 
号 后 面 的 是 毫秒 。 

%(thread)d: 线程 ID。 可 能 没有 。 

%(threadName)s: 线程 名 。 可 能 没有 。 

%(process)d: 进程 ID。 可 能 没有 。 

%(message)s: 用 户 输出 的 消息 。 


还 有 一 些 参 数 应 用 与 进程 线程 等 高 级 应 用 ， 可 自行 参考 官方 文档 或 Google。 
参数 中 的 datefmt 是 日 期 的 格式 化 ， 最 常用 的 几 个 格式 化 是 : 


© %Y: 年 份 的 长 格式 ， 如 1999, 
%y: 年 份 的 短 格式 ， 如 99。 
%m: 月 份 ，01~12。 

%d: 日 期 ，01~31。 

%H: 小 时 ，0~23。 

%w: 星期 0~6， 星 期 天 是 0。 
%M: 分 钟 ，00~59。 

%S: 秒 ，00~59。 


日 期 格式 化 的 参数 还 有 一 些 不 太 常用 的 ， 这 里 就 不 多 做 介绍 了 。 读 者 可 自行 参考 官方 文 
档 或 Google。 


【示例 4-4】 下 面 利用 logging.basicConfig 写 个 最 基本 的 日 志 模 块 应 用 程序 中 ， 编 写 
testLogging.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 


cd code/crawler 
vi testLogging.py 
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testLogging.py 的 代码 如 下 : 





输入 :wq， 保 存 testLogging.py。testlogging.py 用 于 测试 logging 模块 。 该 脚本 使 用 不 同 的 
级 别 向 logger 发 送 了 几 条 信息 。 执 行 命令 : 





得 到 的 结果 如 图 4-5 所 示 。 


ing@debian:~/code/crawler$ python testLogging.py 
iking@debian:~/code/crawler$ cat testLog.txt 

info message 
2016-06-30 14:26:31, warning message 


2016-06-30 14:26:31,173 ERROR error message 
1016-06-30 14:26:31,173 CRITICAL root critical message 
king@debian:~/code/crawlers [] 





45 run testLogging.py 
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默认 的 logging 级 别 是 logging.INFO (程序 第 12 行 ) 。 而 logging.debug (程序 第 17 行 ) 
的 级 别 低 于 logging.INFO， 所 以 没有 显示 。 

在 程序 中 的 关键 位 置 插入 log 信息 ， 执 行 python 程序 时 出 现 什 么 问题 ， 可 以 直接 查找 日 
志文 件 ， 无 须 再 一 步 步 地 debug 调试 。 


4.2.2 自 定 义 模块 myLog 

使 用 logging 模块 很 方便 ， 但 在 编写 过 程 中 添加 一 大 堆 的 代码 就 不 是 那么 愉快 的 事情 
了 。 好 在 Python 有 强大 的 import， 完 全 可 以 先 配 置 好 一 个 myLog.py， 以 后 需要 使 用 时 直接 
导入 到 程序 中 即 可 。 


【示例 4-5】 编 写 myLog.py。 打 开 Putty 连接 到 Linux， 执 行 命令 : 





myLog.py 的 代码 如 下 : 





网 络 礁 虫 实战 





输入 :wq， 保 存 myLog.py。myLog.py 可 以 当成 一 个 脚本 执行 ， 也 可 以 当成 一 个 模块 导入 
到 其 他 的 脚本 中 执行 。 在 这 里 是 作为 脚本 使 用 的 ， 它 的 作用 是 将 所 有 的 log 信息 显示 到 屏幕 


上 ， 错 误 信息 存 入 到 log 文档 中 去 。 执 行 命令 : 


得 到 的 结果 如 图 4-6 所 示 。 





dnt ami /ones /cot ee mylog-py 


oe 06 30 14:35:55,666 CRITICAL king 
Heing@debian:~/code/crawiers [] 





46 run myLog.py 
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【示例 4-6】 下 面 再 写 一 个 testMyLog.py， 在 程序 中 导入 上 图 中 的 myLog.py 作为 模块 使 
用 。 编 写 testMyLog.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 





testMyLog.py 的 代码 如 下 : 





输入 :wq， 保 存 testMyLog.py。testmyLog.py 调用 了 myLog.py， 将 它 作为 模块 使 用 。 执 
行 命令 : 


得 到 的 结果 如 图 4-7 所 示 。 





king@debian:~/code/crawler$ python testMyLog.py 

2016-06-30 14:58:09,055 DEBUG king I am debug message 
2016-06-30 14:58:09,056 INFO king I am info message 
2016-06-30 14:58:09,057 WARNING king I am warn message 
2016-06-30 14:58:09,058 ERROR king I am error message 
2016-06-30 14:58:09,059 CRITICAL king I am critical message 
king@debian:~/code/crawler$ cat testMyLog.log 

2016-06-30 14:58:09,058 ERROR king I am error message 
2016-06-30 14:58:09,059 CRITICAL king I am critical message 


king@debian:~/code/crawlers [] 


图 4-7 导入 自 定义 模块 





在 编程 时 ， 有 时 为 了 查看 程序 的 进度 和 参数 的 变化 ， 在 程序 中 间 插 入 了 大 量 的 print。 检 
查 完 毕 后 又 要 逐个 删除 ， 费 时 费力 。 使 用 log 后 就 简单 多 了 ， 直 接 保 存 为 日 志文 件 即 可 。 
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4.3 其 他 有 用 模块 


在 编写 网 络 爬 虫 时 ， 还 有 一 些 模块 是 必 不 可 少 的 。 这 些 模块 使 用 频率 不 高 ， 如 果 不 想 深 
究 ， 稍 作 了 解 即 可 。 


4.3.1 re 模块 《正则 表达 式 操作 ) 

re 模块 是 文件 处 理 中 必 不 可 少 的 模块 。 它 主要 应 用 于 字符 串 的 查找 、 定 位 等 等 。 在 使 用 
AACN, REBECA, re 模块 配合 urllib2 模块 也 可 以 完成 简单 的 仆 虫 功能 。 先 来 
看 看 所 谓 的 正则 表达 式 ， 以 下 是 Python 支持 的 正则 表达 式 元 字符 和 语法 。 


1 .字符 

© : 匹配 任意 除 换行 符 \n 外 的 字符 ，abc 匹配 abc. 

© \ 转 义 字符 ,使 后 一 个 字符 改变 原来 的 意思 ，a\.bce 匹配 abe, 

@ [...]: FAR (字符 类 ) 。 对 应 字符 集中 的 任意 字符 ， 第 一 个 字符 是 ^ 则 取 反 。 


a[be]d 匹配 abd,acd。 
\d: 数字 [0-9]。 
\D: 非 数 字 [Ad]。 
: 空白 字符 [空格 tnvf\v]。 
\S: 非 空白 字符 [As]。 
\w: 单词 字符 [a-zA-Z0-9 ]。 
\W: 非 单词 字符 [AAAw]。 
. 数量 词 
* “匹配 前 一 个 字符 0 或 无 限 次 。al*b 匹配 ab、alb、al1lb…… 
+: ”匹配 前 一 个 字符 1 或 无 限 次 。al*b 匹配 alb、al1b…… 
3: ”匹配 前 一 个 字符 0 或 1 次 。al*b 匹配 ab、alb。 
{m}: 匹配 前 一 个 字符 m 次 。al{3}b 匹配 alllb。 
{mn}: 匹配 前 一 个 字符 m 至 n 次 。al{2,3}b 匹配 allb、alllb. 
. 边界 匹配 
A: 匹配 字符 串 开 头 ， 如 ^abc 匹配 以 abe 开头 的 字符 串 。 
$: ”匹配 字符 串 结尾 ， 如 xyz$ 匹 配 以 xyz 结尾 的 字符 串 。 
\A: 仅 匹 配 字符 串 开 头 ， 如 \Aabc。 
Z: 仅 匹配 字符 串 结尾 ， 如 Xyz\Z。 


e eeee N 
a 


© ee ee oo” 


© eoo > 
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Python 的 re 模块 提供 了 两 种 不 同 的 原始 操作 : match 和 search。match 是 从 字符 串 的 起 
点 开始 做 匹配 ， 而 search (perl BRU) 是 对 字符 串 做 任意 匹配 。 最 常用 的 几 个 re 模块 方法 如 
F: 
re.compile(pattern, flags=0): 将 字符 串 形式 的 正则 表达 式 编译 为 Pattern 对 象 。 
re.search(string[, pos[, endpos]]): 从 string 的 任意 位 置 开始 匹配 。 
re.match(string[, pos[, endpos]]): 从 string 的 开头 开始 匹配 。 
re.findall(string[, pos[, endpos]]): 从 string 任意 位 置 开 始 匹 配 ， 返 回 一 个 列表 。 
re.finditer(string[, pos[, endpos]]): 从 string 任意 位 置 开始 匹配 ， 返 回 一 个 迭代 器 。 一 
般 匹 配 findall 就 可 以 了 ， 大 数量 的 匹配 还 是 使 用 finditer 比较 好 。 


简单 地 测试 一 下 ， 打 开 IDLE 执行 命令 : 





执行 结果 如 图 4-8 所 示 。 


I an python nodules test for re nodules” 
>>> re, search( an’ 
<_sre. SRE_Match object at 0x00000000029B8100> 
2 re. search( an’, s). group() 


93> re aatchf an’ 2s) 
pee re. aatch( E, I w 28) 

re. SRE_Mat: object at 0x00000000029B8100> 
Si te. meen I an’, s). group() 


"I am 
PR, re, findall( nodules’, s) 
nodules’ ] 


es 
> re. finditer( modules’, s) 
<callable-iterator object” at beret pea red 
>>> for sre in re. finditer (m a8): 

print (are. group) 


modules 
modules 
>»> 





4-8 re 匹配 字符 串 
现在 用 re 模块 和 urllib2 模块 来 做 一 个 简单 的 网 络 息 虫 ， 例 如 笔者 想 看 看 最 近 的 电影 院 播 
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放 的 今日 电影 。 先 找 找 最 近 的 影院 ， 就 以 金 逸 影 城 为 例 。 找 到 影院 页 面 
http://www.jycinema.com/browsing/Cinemas/Details/1029， 先 使 用 urllib2 模块 抓 取 整个 网 页 ， 
再 使 用 re 模块 获取 影视 信息 。 


【示例 4-7】 编 写 simpleCrawlerNowMoive.py，Putty 连接 到 Linux， 执 行 命令 : 





simpleCrawler.py 的 代码 如 下 : 





输入 :wq， 保 存 simpleCrawlerNowMoive.py。simpleCrawlernowMoive.py 使 用 urllib2 模块 
获取 URL 的 返回 信息 ， 然 后 使 用 re 模块 从 结果 中 过 滤 得 到 当日 电影 的 列表 ， 最 后 显示 到 屏 
幕 上 。 执 行 命 令 : 
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a | 
得 到 的 结果 如 图 4-9 所 示 。 





: FAZEN (数字 3D) 


3D. 
PRE: RA (MFD) 
king@debian:~/code/crawlers [] 


图 4-9 run simpleCrawlerNowMoive.py 


看 起 来 不 像 是 网 络 息 虫 ， 对 吗 ? ERRARE ERT o REER A A AR 
单 、 也 很 少 喷 了 。 当 疏 取 的 内 容 比 较 少 的 时 候 ， 网 络 爬 虫 也 可 以 这 么 写 。 稍 微 复杂 点 的 、 疏 
取 内 容 多 一 点 的 ， 按 照 这 个 方法 写 那 就 很 痛苦 了 ， 这 个 时 候 就 要 用 到 疏 虫 框架 了 。 


4.3.2 sys 模块 〈 系 统 参数 获取 ) 


sys 模块 ， 顾 名 思 义 就 是 跟 系统 相关 的 模块 ， 这 个 模块 的 函数 方法 不 多 。 最 常用 的 就 只 
有 了 两 个 。sys.argv 和 sys.exit。sys.argv 返回 一 个 列表 ， 包 含 了 所 有 的 命令 行 参数 ，sys.exit W 
是 退出 程序 。 再 就 是 可 以 返回 当前 系统 平台 。 这 个 模块 比较 简单 ， 稍 作 了 解 即 可 。 


【示例 4-8】 编 写 testSys.py， 打 开 Putty 连接 到 Linux， 执 行 命令 : 





testSys.py 的 代码 如 下 : 
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输入 :wq， 保 存 testSys.py。testSys.py 顾名思义 用 于 测试 sys 模块 。 该 脚本 将 获取 系统 平 
台 、Python 脚本 参数 的 个 数 、 参 数 的 值 等 信息 。 执 行 命令 : 


得 到 的 结果 如 图 4-10 所 示 。 


6 
参数 分 别 是 ['testSys.py', '1', '2 

其 次 就 是 获取 当前 的 系统 平台 

ays .platform 返 回 值 对 应 的 平台 : 


atheos 


当前 的 系统 为 linux2 


kingêdebian:~/code/crawler$ [] 





图 4-10 run testSys.py 
sys 模块 用 处 不 多 ， 但 也 需要 熟悉 。 顾 名 思 义 ， 它 的 主要 作用 就 是 返回 系统 信息 。 


4.3.3 time 模块 〈 获 取 时 间 信 息 ) 


Python 中 的 time 模块 是 跟 时 间 相 关 的 模块 。 这 个 模块 用 得 最 多 的 地 方 可 能 就 是 计时 器 
了 。 本 节 只 介绍 最 常用 的 几 个 函数 。 
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© time.time?): 返回 当前 的 时 间 蕉 。 
© time.localtime([secs]): 默认 将 当前 时 间 戳 转换 成 当前 时 区 的 struct_time。 
@ time.sleep(secs): 计时 器 。 
© Time.strftime(format[, t]); 把 一 个 struct time 转换 成 格式 化 的 时 间 字 符 事 。 这 个 函数 
支持 的 格式 符号 如 表 4-1 所 示 。 
表 4-1 时 间 字 符 串 支持 的 格式 符号 
格式 含义 
%a Ash (locale) 简化 星期 名 称 
%A 本 地 完整 星期 名 称 
%b 本 地 简化 月 份 名 称 
本 地 完整 月 份 名 称 
%c 本 地 相应 的 日 期 和 时 间 表 示 






一 个 月 中 的 第 几 天 (01 ~31) 
一 天 中 的 第 几 个 小 时 (24 小 时 制 ，00 ~ 23) 












第 几 个 小 时 《12 小 时 制 ，01 ~ 12) 
一 年 中 的 第 几 天 (001 ~ 366) 
月 份 (Ol ~ 12) 
分 钟 数 (00 ~ 59) 
本 地 am 或 者 pm 的 响应 符 


%l 


z 
j = 


s 
ï 


%m 
%M 
%p 











[m | 

[m 

[w 

秒 (01~61) 

一 年 中 的 星期 数 

一 个 星期 中 的 第 几 天 0 ~ 6，0 是 星期 天 ) 
和 %U 基本 相同 ， 不 同 的 是 %W 以 星期 一 为 一 个 星期 的 开始 
本 地 相应 日 期 

本 地 相应 时 间 

简化 的 年 份 (00 -99) 

wy 完整 的 年 份 

wz 时 区 的 名 字 (如 果 不 存 在 为 空 字符 ) 

w% wR 





备注 : 

在 使 用 strptime() 函 数 时 ，%p 和 %I 配合 使 用 才 有 效 。 

AS 中 的 秒 是 0-61， 半 年 中 的 秒 占 两 秒 。 

在 使 用 strime() 函 数 时 ， 只 有 当年 中 的 周 数 和 天 数 被 确定 时 ，%U 和 %W 才 被 计算 。 
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简单 地 测试 一 下 ， 在 Windows 中 打开 IDLE， 执 行 命令 : 





执行 结果 如 图 4-11 所 示 。 


Python 2.7.11 (v2.7. 11:6d1b6a68£775, Dec 5 2015, 20:40:30) [MSC v.1500 64 bit ( «| 
AND64)] on win32 
Type “copyright”, “credits” or “license()" for nore information. 
>>> inport tine 
>>> time, tine () 
1467283311. 795 
> time. localtime () 
Rae: struct_time(tm_year=2016, tm_mon=6, tm_aday=30, tm_hour=18, tm_min=41, tm_s 
ec=57, tn_wday=3, yi 182, ta_isdst=0) 
>>> for i in xrange( 
tine, sleep (1) 
print i 


22 tine. strftime(’ XY-Xn-Xd WX", time. localtime()) 
2016-06-30 18:42:44" 





图 4-11 show time module 


【示例 4-9】 做 个 简单 的 程序 ， 实 验 一 下 time 模块 。 编 写 testTime.py, 4] IF Putty 连接 到 
Linux， 执 行 命令 : 


testTime.py 的 代码 如 下 : 
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输入 :wq， 保 存 testTime.py。testTime.py 测试 了 time 模块 的 定时 器 功能 ， 并 显示 当前 时 
间 。 执 行 命令 : 
[| 


得 到 的 结果 如 图 4-12 所 示 。 





Python po) 4g /@ 8 SCA 


gees 个 浮 点 型 的 数值 Ee lune BSNS SOT 


[2016-06-30 18:47:36,458 INFO king 开始 测试 cime.localtime() 函 数 
当前 本 地 时 间 为 : zime.localcime() = time.struct_time(tm_year=2016, tm mon=6, tm m| 


[aay=30, tm hour=18, tm min=47, tm sec=36, tm wday=3, tm yday=182, tm isdst=0) 
这 里 返回 的 是 一 个 aczucc rime 897A 


2016-06-30 18:47:36,460 INFO king 开始 测试 cime.sleep () 函数 
| 这 是 个 计时 器 : time.sleep(5) 
闭 上 眼睛 数 上 s 秒 就 可 以 了 


[2016-06-30 18:47:41,463 INFO king 开始 测试 rime.srrfrime() 函 数 
这 个 函数 返回 的 是 一 个 格式 化 的 时 间 


time.strftime("4Y-4m-4d 4X", time.localtime()) = 2016-06-30 18:47:41 





kingêdebian:~-/code/crawler$ [] 





图 4-12 run testTime.py 
time 模块 还 有 很 多 函数 ， 最 常用 的 还 是 计时 器 ， 其 次 就 是 做 时 间 戳 了。 


4.4 sang 


如 果 只 想 大 致 了 解 Python (AZM, WE TIMER a FE AS T o BENE He} T FEI 
需要 其 他 模块 ， 也 无 须 担心 ， 大 多 也 只 是 需要 模块 中 的 某 个 函数 。 完 全 可 以 把 它 当 成 函数 使 
用 ， 这 样 就 简单 多 了 。Python 2 的 标准 模块 差不多 有 300 个 。 熟 悉 所 有 的 模块 ， 既 没 必要 ， 
也 不 可 能 。 用 到 哪个 模块 就 熟悉 哪个 模块 ， 就 可 以 了 。 
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网 络 爬 虫 的 最 终 目 的 就 是 从 网 页 中 截取 自己 所 需要 的 内 容 。 最 直接 的 方法 当然 是 用 
urllib2 请 求 网 页 得 到 结果 ， 然 后 使 用 re 取得 所 需 的 内 容 。 但 如 果 所 有 的 疏 虫 都 这 样 写 ， 工 作 
量 未 免 太 大 了 点 ， 所 以 才 有 了 爬 虫 框架 。 

Python 下 的 爬虫 框架 不 少 ， 笔 者 认为 最 简单 的 就 要 数 Scrapy 了 。 首 先 它 的 资料 比较 全 ， 
网 上 的 指南 、 教 程 都 比较 多 。 其 次 它 够 简单 ， 只 要 按 需 填空 即 可 ， 简 简单 单 地 就 能 获取 到 所 
需 的 内 容 ， 非 常 方便 。 


5. 1 安装 Scrapy 


Scrapy 的 官网 是 http://scrapy.org/， 目 前 最 新 版 本 的 Scrapy 是 Scrapy 1.1. Scrapy 的 安装 
方式 很 多 。 官 网 上 就 给 出 了 4 种 安装 方法 ，PyPI、Conda、APT 、Source 安装 。 这 里 笔者 只 
演示 最 常用 的 两 种 安装 方法 。 


5.1.1 Windows 下 安装 Scrapy 环境 


Windows 下 安装 Scrapy 除了 不 能 使 用 APT 安装 外 ， 其 他 的 三 种 方法 都 是 可 以 的 。 这 里 
笔者 选择 了 最 简单 的 PyPL 安装 ， 也 就 是 pip ZAR. pip 安装 Scrapy 的 前 提 条 件 是 已 经 安装 好 
了 Python， 并 配置 好 了 pip 源 。 如 果 这 些 条 件 已 经 具备 ， 安 装 Serapy 只 需要 打开 cmd, PAT 
一 条 命令 而 已 。 打 开 cmd 并 执行 命令 : 

| BE | 


执行 结果 如 图 5-1 所 示 。 





Python MAERSK 


1 131KB 172kB/s eta 
$ 135kB 155kB/e ota 


1 ASSKB 155kB/s eta 
+ 159kB 155kB/e ota B 
1 169KB 155kB/s eta Ø 

167kB 155kB/o ota 
172kB 9994B/s eta 


图 5-1 使 用 pip 安装 scrapy 
Windows 下 的 Scrapy 和 Linux 下 的 Scrapy 是 完全 一 样 的 。 但 笔者 一 般 都 会 在 Linux 下 使 
用 Scrapy。Linux 的 优点 是 有 很 多 辅助 工具 可 供 使 用 ， 而 Windows 的 优点 就 只 剩 下 有 很 多 
IDE 可 供 选择 了 。 而 在 这 里 使 用 Scrapy 框架 时 ，IDE 却 是 最 无 关 紧 要 的 参考 选项 了 。 





5.1.2 Linux 下 安装 Scrapy 
Linux 下 安装 Scrapy 官网 上 推荐 的 4 种 方法 都 可 以 。 从 上 一 小 节 看 ，Windows 下 使 用 了 
pip 安装 scrapy 已 经 很 简单 了 ，Linux 下 使 用 更 简单 的 方法 APT 来 安装 。Scrapy 官方 推荐 的 
APT 安装 还 需要 在 Linux 中 添加 apt 源 。 得 益 于 Debian 庞大 的 软件 库 ， 这 一 步 完全 可 以 省 
略 。 直 接 使 用 Debian Linux 的 apt-get 安装 Scrapy， 简 单方 便 而 且 将 Scrapy 列 入 了 apt 包 管 
理 器 中 。 以 后 升级 、 删 除 都 很 方便 。 安 装 Scrapy 也 是 只 需要 一 条 命令 而 已 ， 执 行 命令 : 
apt-get install python-scrapy 


执行 结果 如 图 5-2 所 示 。 








king@debians: ~ x 





编辑 (E) 查看 (V) RLS) 
an8: /hone/ king# 





am 


install python- screpy 
















ipython t- common Libis- {query Libmysqicliont18 mysql- common python- boto 
python- characteristic python-crypte pythy ər python: django 
python- dj ango- common p na pyth "1- modules 





ach python- twist 
ed-web python- t: 








python- doc ipython- notebook ipython- qtconsate 
o- dbg python- crypto 
he python-berypt pyt 





hon- mysal db- dog 
3.0 python-wxgtk python- sqLparse- doc python- twistod- bin- dbg python- tk 
2 python- qt3 


a 








python- guppy 
FaK 次 件 包 将 被 安装 
ript- connon 11bj 







cnnon python- boto 
orator python- django 
ni- modules 





stic pytha 














python- queustib[pytF 
python- slngteqehsTTz 


py] python- serial python- service- identity 
lparse python- twlsted- bln python- twisted- conch 





图 5-2 ”使 用 apt-get 安装 scrapy 
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因为 Debian 安装 软件 选择 的 都 是 最 成 熟 稳 定 的 版 本 ， 而 不 是 最 新 的 版 本 。 所 以 这 里 安装 
的 Scrapy 并 不 是 最 新 的 1.1 版 ， 如 图 5-3 所 示 。 


scrapy <command> [options] [args] 


[Available commands: 

Run quick benchmark test 
Fetch a URL using the Scrapy downloader 
Run a self-contained spider (without creating a project) 
Get settings values 
Interactive scraping console 

startproject Create new project 

version Print Scrapy version 

view Open URL in browser, as seen by Scrapy 


[ more ] More commands available when run from project directory 


[Use "scrapy <command> -h" to see more info about a command 
king@debian:~$ 





FA 5-3 Scrapy 版 本 
这 两 个 版 本 并 没有 什么 本 质 的 不 同 ， 我 们 可 以 放心 使 用 。 


5.1.3 vim 编辑 器 

本 章 的 Scrapy 项 目 主要 是 在 Linux 下 运行 。 在 Linux 下 最 强大 的 IDE 是 Eclipse， 但 最 方 
便 的 还 是 vim (vim 是 vi 的 强化 版 ， 而 vi 是 所 有 Linux 发 行 版 本 都 默认 安装 的 ) 。 

vim 是 一 个 文本 编辑 器 ， 在 上 手 时 可 能 稍 有 点 麻烦 。 它 有 一 些 快捷 键 和 命令 是 必须 要 记 
住 的 ， 可 以 边 使 用 边 记忆 。 等 熟悉 了 vim 的 操作 方法 ， 就 会 发 现 文本 编辑 是 如 此 简单 。 对 不 
同 的 编程 语言 配合 不 同 的 插件 ， 可 以 将 vim 配置 成 为 一 个 专属 的 IDE。 

vim 安装 非常 简单 ， 使 用 Putty 登录 Linux 后 ， 以 root 用 户 执行 命令 : 


vim 的 配置 文件 是 /etc/vim/vimre Ail /home/‘user’/.vim/vimre (对 于 用 户 king 来 说 就 是 
/homeyking/.vim/vimrc )。 前 者 是 系统 配置 文件 ， 后 者 是 用 户 的 配置 文件 。 两 者 相 冲 突 ， 则 以 
后 者 为 主 。 

vim 的 配置 项 很 多 这 里 不 一 一 列举 ， 为 了 编写 Python 程序 方便 ， 这 里 只 修改 最 简单 的 设 
置 。 笔 者 的 vimrc 文件 如 下 : 


第 1 行 的 设置 是 将 tabstop 设置 成 4 个 空格 ， 第 2 行 是 显示 行 号 ， 第 3 行 不 将 tabstop 转 
换 成 空格 。 

如 果 经 常 在 Linux 写 Python 程序 ， 可 以 到 github 上 下 载 vim 变 身 Python IDE 的 配置 文 
件 。 仔 细 调 试 一 下 ，vim IDE 不 比 Windows 下 的 Python IDE 差 。 
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在 使 用 Scrapy MGIB Hits EE TMF Scrapy 的 选择 器 。 在 前 面 章节 曾经 提 过 ， 网 络 疏 
虫 原理 就 是 获取 网 页 返回 ， 然 后 提取 所 需 的 内 容 。 获 取 网 页 返回 很 简单 ， 重 点 就 在 提取 内 容 
上 。 如 何 提取 ? 使 用 Python 的 re 模块 ， 前 面 的 章节 中 已 经 尝试 过 了 。 简 单 网 页 用 re 模块 提 
取 可 以 将 就 复杂 一 点 的 提取 内 容 就 麻烦 了 。 不 是 说 完全 不 可 以 ， 但 是 有 简单 的 方法 又 何必 
去 自己 编写 新 方法 呢 。 

Scrapy 提取 数据 有 自己 的 一 套 机 制 。 它 们 被 称 作 选 择 器 〈seletors) ， 通 过 特定 的 XPath 
或 者 CSS 表达 式 来 “选择 ”HTML 文件 中 的 某 个 部 分 。 

XPath 是 一 门 用 来 在 XML 文件 中 选择 节点 的 语言 ， 也 可 以 用 在 HTML Ee CSS 是 一 门 
将 HTML 文档 样式 化 的 语言 。 选 择 器 由 它 定义 ， 并 与 特定 的 HTML 元 素 的 样式 相关 联 。 

Scrapy 的 选择 器 构建 于 lxml 库 之 上 ， 这 意味 着 它们 在 速度 和 解析 准确 性 上 非常 相似 。 所 
以 看 你 喜欢 那 种 选择 器 就 使 用 那 种 吧 ， 它 们 从 效率 上 看 是 完全 没有 区 别 。 


5.2.1 XPath 选择 器 


XPath 是 一 门 在 XML 文档 中 查找 信息 的 语言 。XPath 可 用 来 在 XML 文档 中 对 元 素 和 
属性 进行 遍历 。XPath 含有 超过 100 个 内 建 的 函数 。 这 些 函 数 用 于 字符 串 值 、 数 值 、 日 期 和 
时 间 比 较 、 节 点 和 QName AIE, FSAI, BEE. CEPI R eA XPath 
“采集 ”数据 ， 如 果 想 深入 研究 可 参考 www.w3school.com.cn 中 的 XPath 教程 。 

在 XPath 中 ， 有 7 种 类 型 的 节点 : 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指令 、 注 释 以 及 
文档 节点 《或 称 为 根 节点 ) 。XML 文档 是 被 作为 节点 树 来 对 待 的 。 树 的 根 被 称 为 文档 节点 或 
者 根 节 点 。 


【示例 5-1】 做 个 简单 的 XML 文件 ， 以 便 演示 。 执 行 命令 : 





在 这 里 创建 了 scrapy 的 工作 目录 scrapyProject， 并 在 该 目录 下 创建 了 选择 器 的 工作 目录 
seletors。 在 该 目录 下 创建 选择 器 的 演示 文件 superHero.xml。superHero.xml 的 代码 如 下 : 





Scrapy ME RER 





很 简单 的 一 个 XML 文件 ， 在 浏览 器 中 打开 这 个 文件 ， 如 图 5-4 所 示 。 


This XML file does not appear to have any style information associated with it. The document tree is show below. 


Y <superhero> 
slew 
ang="en” Tony Stark</nane> 
Ghote te Tayali. 


in isch 
<age)4 
was” 
<class) 
eter Benjamin Parker</nane> 


<nane 1 

Giese Badaia 

‘sex>male</ sex) 

S rthday)unknowć/b: 
'ageunknomć/age> 


ieee 


pad Lang="en" »Steven Rogers</nane> 
epostn 各 ericac/alias> 
<sexdmale</se: 
EIROA birtan 
Kage? 96</ agi 

</class> 

/superhero> 





图 5-4 选择 器 演示 文件 superHero.xml 


后 面 的 选择 器 都 以 该 文件 为 示例 。 在 superHero.xml 中 ，<superhero> 是 文档 节点 ， 

<alias>Iron Man</alias> 是 元 素 节 点 ，lang="en" 是 属性 节点 。 

从 节点 的 关系 来 看 。 第 一 个 Class 节点 是 name, alias. sex. birthday, age 节点 的 父 节点 
(Parent) 。 反 过 来 说 ，name、alias、sex、birthday、age 节点 是 第 一 个 Class 节点 的 子 节点 
(Childer) > name, alias, sex, birthday, age 节点 之 间 互 为 同胞 节点 (sibling) 。 这 只 是 个 

最 简单 的 例子 ， 如 果 节 点 的 “深度 ”足够 ， 还 会 有 先辈 节点 (Ancestor) 和 后 代 节 点 
(Descendant) 。 

XPath 使 用 路 径 表 达 式 在 XML 文档 中 选取 节点 。 表 5-1 中 列 出 了 最 常用 的 路 径 表 达 
式 。 
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R51 路 径 表达 式 










从 根 节点 选取 
从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 不 考虑 它们 的 位 置 
选取 当前 节点 
选取 当前 节点 的 父 节点 
选取 属性 

匹配 任何 元 素 节点 
匹配 任何 属性 节点 
匹配 任何 类 型 的 节点 


下 面 用 XPath 选择 器 来 “采集 ”XML 文件 中 所 需 的 内 容 ， 先 做 好 准备 工作 。 执 行 命令 : 


python 

from scrapt.selector import Selector 

with open(‘./superHero.xml’,’r’) as fp: 
body = fp.read() 

Selector (text=body) .xpath(‘/*’) „extract () 

























首先 启动 Python, A scrapy.selector 模块 中 的 Selector, F]IF superHero.xml 文件 ， 并 将 
其 内 容 写 入 到 body 变量 中 ， 最 后 使 用 XPath 选择 器 显示 superHero.xml 文件 中 的 所 有 内 容 。 
执行 结果 如 图 5-5 所 示 。 


feing@debian:~/code/crawier/acrapyProject/seletorss python 
[Python 2.7.9 (default, Mar 1 2015, 12:57:24) 
[GCC 4.9.2] on linux2 
type "help", “copyright, "credits" or "license" for more information. 
>>> from scrapy-selector import Selector 
>>> wath open('./supertero.xmi',‘r') as rp: 
body = fp.read() 


GR tan d 
alias>\n\t<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</q 
ass>\n<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spide 
Man </aliaa>\n\t<sex>male </sex>\n\t<bizthday>unknow </birthday>\n\t<age>unkno! 
f </age>\n</class>\n<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>q 
prain America </alias>\n\tcsexomale </sex>\n\tcbirthday>19200704 </birthday>\n 


bas>tron Man </alias>\n\c<sexomaie </sex>\n\ccbirthday>i962 </birthday>\n\t<age>| 

7 </age>\n</class>\n<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\ 

<alias>Spider Man </alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\ 

h\t<age>unknown </age>\n</class>\n<class>\n\t<name lang="en">Steven Rogers </nam| 

>\n\tcaliassCaptain America </alias>\n\t¢sexsmale </sex>\n\tcbirthday>19200704 
q z upexhera></body></htmi>* 





5-5 XPath 选择 器 准备 工作 











a 选择 器 在 从 根 节点 选择 所 有 节点 时 得 到 的 数据 和 直接 从 文件 中 读 取 的 数据 有 点 不 一 样 。 
为 示例 文件 并 不 是 一 个 标准 的 html 文件 ， 所 以 在 选择 器 中 被 自动 添加 了 <html> 和 
<body> 标 签 。 也 就 是 说 在 选择 器 看 来 ， 示 例文 件 的 根 节点 并 不 是 <superhero> ， 而 是 
<html>。 
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好 了 ， 现 在 来 看 如 何 使 用 XPath 选择 器 “收集 ”数据 ， 如 图 5-6 所 示 。 





ero ,xml 中 name 属 性 为 en 的 数据 *) 
me 属性 为 no 的 数据 


以 下 
ETIE a 


gupsoay 二 Selector (text—poay) - xpath ("/ntmi/poay/supernero/ciass(iast()-21")- 
一 


Peter Benjamin Parker </name>\n\t<alias>Spider Man 
n\t<birthaayounknow </pirenaay>\n\t<age>unknoun </ 


5-6 XPath 选择 器 收集 数据 


XPath 中 最 常用 的 几 个 方法 就 是 如 此 了 ， 非 常 简单 。“ 隐 藏 ”得 不 太 深 的 数据 直接 用 
XPath 选择 器 挑选 数据 就 可 以 了 。 复 杂 一 点 的 ， 用 配套 选择 就 能 很 方便 地 搞定 。 只 要 有 点 耐 
心 ， 再 复杂 的 数据 也 可 以 分 离 出 来 。 


5.2.2 CSS 选择 器 
CSS， 看 起 来 很 眼熟 是 不 是 ? 没 错 ， 就 是 你 已 经 知道 的 那个 CSS 一 HAREK. CSS 
规则 由 两 个 主要 的 部 分 构成 : 选择 器 ， 以 及 一 条 或 多 条 声明 。 


selector {declarationl; declaration2; ... declarationN } 


CSS 是 网 页 代码 中 非常 重要 的 一 环 ， 即 使 不 是 专业 的 Web 从 业 人 员 ， 也 有 必要 认真 学 习 
一 下 。 这 里 只 简略 介绍 一 下 与 朴 虫 密切 相关 的 选择 器 ， 表 5-2 中 列 出 了 CSS 经 常 使 用 的 几 个 
选择 器 。 























表 5-2 CSS 选择 器 
[os [ino | EE iaso cro” HERR 
i #firstname 选择 id=“firstname” 的 所 有 元 素 

* + 选择 所 有 元 素 

element p 选择 所 有 <p> 元 素 

elementelement | divp 选择 所 有 <div> 元 素 和 所 有 <p> 元 素 

element element | divp 选择 <div> 元 素 内 部 的 所 有 p 元 素 

[attribute] [target] 选择 带 有 target 属性 的 所 有 元 素 

[attribute=value] | [target=_blank] 选择 target=_blank” HK MAIA 
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与 XPath 选择 器 相 比较 ，CSS 选择 器 稍微 复杂 一 点 ， 但 其 强大 的 功能 弥补 了 这 点 缺陷 。 
下 面 就 来 试验 一 下 CSS 选择 器 如 何 收集 数据 ， 如 图 5-7 所 示 。 





>>> Selector (text=body) css ("class") extract (} - 
[u'<class>\n\t<name lang="en">Tony Stark </name>\n\t<alias>Iron Man </alias>\n\t 
<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</class>', u'< 
lclass>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man </a 
lias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </age> 
\n</class>", u'<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>Captai 
In America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age 
[>96 </age>\n</class>"} 

>>> 

>>> Selector (text=body) .css('class name') extract () 

(u' Same Tange"en"siony Stark </name>™, u’cname Tang="en">Peter Benjamin Parker 
</name>', u'<name lang="en">Steven Rogers </name>'] 

>>> 

>>> Selector (text=body) .css('class name') extract () [0] 

ju' <ame Tang="enotony Stark </name> 

[>>> Selector (text=body) .css (' [1ang] ') .extract() [0] 

lu*<name lang="en">Tony Stark </name> 


>>> Selector (text=body) .css(' [lang="en"]") extract 
(u'<fame Ta a STony = </name>’, u'cname lang="en">Peter Benjamin Parker 


</name>', u'<name lang="en">Steven Rogers </name>'] 
>>> 





5-7 CSS 选择 器 收集 数据 


因为 CSS 选择 器 和 XPath 选择 器 都 可 以 嵌 套 使 用 ， 所 以 它们 可 以 互相 嵌 套 ， 这 样 一 来 收 
集 数据 会 更 加 方便 。 


5.2.3 ”其 他 选择 器 

XPath 选择 器 还 有 一 个 :re0) 方 法 ， 用 于 通过 正则 表达 式 来 提取 数据 。 然 而 ， 不 同 于 使 
用 .xpath(0) 或 者 .css() 方 法 ，.re() 方 法 返回 unicode 字符 串 的 列表 ， 所 以 无 法 构造 嵌 套 式 的 .re0 调 
用 。 使 用 方法 如 图 5-8 所 示 。 


Ea 
>>> Selector (text=body) .xpath('/html/body/superhero/class[1]').re('>.*?<') 


[u'>Tony Stark <', u'>Iron Man <', u'>male <', u'>1969 <', u'>47 <'] 





图 5-8 re 选择 器 收集 数据 
这 种 方法 并 不 常用 。 个 人 觉得 还 不 如 在 程序 中 添加 代码 ， 直 接 用 re 模块 方便 。 
因为 Scrapy 选择 器 建 于 lxml 之 上 ， 所 以 它 也 支持 一 些 EXSLT 扩展 ， 但 这 里 就 不 做 说 明 
了 ， 有 兴趣 的 读者 可 以 自行 Google。 


5.3 Scrapy MeBSK— : 今日 影视 


还 记得 前 面 章节 中 用 re 模块 操作 疏 虫 在 金 逸 影 城 的 网 站 中 疏 取 当日 影视 信息 的 例子 吗 ? 
实际 上 用 Scrapy 来 聆 取 会 简单 得 多 。 打 个 比方 ， 前 面 章节 中 使 用 re 模块 爬 取 当 日 影视 相当 
于 是 做 作文 ， 而 使 用 Scrapy 来 朴 取 就 相当 于 做 填空 题 ， 只 需要 把 相应 的 要 求 填 入 空白 框 里 就 
可 以 了 。 
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5.3.1 创建 Scrapy mA 


似乎 所 有 的 框架 ， 开 始 的 第 一 步 都 是 从 创建 项 目 开始 的 ，Scrapy 也 不 例外 。 在 这 之 前 要 
说 明 的 是 Scrapy 项 目的 创建 、 配 置 、 运 行 …… 默 认 都 是 在 终端 下 操作 的 。 不 要 觉得 很 难 ， 其 
实 它 真 的 非常 简单 ， 填 空 题 而 已 。 如 果实 在 是 无 法 接受 ， 也 可 以 花 点 心思 配置 好 Eclipse， 在 
这 个 万 能 IDE 下 操作 。 个 人 推荐 还 是 在 终端 操作 比较 好 ， 虽 然 开始 可 能 因为 不 熟悉 而 出 现 很 
多 错误 ， 不 过 人 类 不 就 是 在 错误 中 前 进 吗 ? 错 多 了 ， 印 象 深 刻 了 ， 也 就 自然 学 会 了 。 打 开 
Putty 连接 到 Linux， 开 始 创建 Scrapy 项 目 。 执 行 命令 : 





执行 结果 如 图 5-9 所 示 。 


king@debian:~$ cd 

king@debian:~$ cd code/crawler/scrapyProject/ 

king@debian:~/code/crawler/scrapyProject$ scrapy startproject todayMoive 

[New Scrapy project ‘todayMoive' created in: 
/mnt/disk/sync/code/crawler/scrapyProject/todayMoive 


You can start your first spider with: 
cd todayMoive 
scrapy genspider example example.com 
king@debian:~/code/crawler/scrapyProject$ tree todayMoive 
odayMoive 


E scrapy.cfg 
todayMoive 


pipelines.py 
settings.py 


二 init__.py 


|2 directories, 6 files 
king@debian:~/code/crawler/scrapyProjects [] 








图 5-9 创建 todayMoive 项 目 





Z 元 | tree 命令 将 以 树 形 结构 显示 文件 目录 结构 。tree 命令 默认 情况 下 是 没有 安装 的 ， 可 以 执行 
[命令 aptgetinstalltree 来 安装 这 个 命令 。 











这 里 可 以 很 清楚 地 看 到 todayMoive 目录 下 的 所 有 子 文件 和 子 目 录 。 至 此 Scrapy 项 目 
todayMoive 基本 上 完成 了 。 按 照 Scrapy 的 提示 信息 ， 可 以 通过 Scrapy 的 Spider 基础 模版 顺 
便 建立 一 个 基础 的 和 朴 虫 。 相 当 于 把 填空 题 打印 到 试卷 上 ， 等 待 填 空 了 。 当 然 ， 也 可 以 不 用 
Scrapy 命令 建立 基础 和 仆 虫 ， 如 果 非 要 体验 一 下 DIY 也 是 可 以 的 。 这 里 我 们 还 是 怎么 简单 怎么 
来 吧 ， 按 照 提示 信息 ， 在 该 终端 中 执行 命令 : 
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执行 结果 如 图 5-10 所 示 。 


Sie) 8 


king@debian:~/code/crawler/scrapyProject/todayMoiveS scrapy genspider wuHanMoive + 
Spider jycinema.com 
Created spider 'wuHanMoiveSpider' using template ‘basic!’ in module: 
todayMoive.spiders.wuanMoiveSpider 
lking@debian:~/code/crawler/scrapyProject/todayMoiveS tree ../todayMoive 
|. ./todayMoive 
|— scrapy.ctg 
[一 todayMoive 
init__.py 
Tanit_.pye 
items.py 
Pipelines.py 
settings.py 
settings.pyc 
spiders 
}— init__.py 
[— init— .pyc 
[一 \aHenMoiveSpider.py 








|2 directories, 10 files 
king@debian:~/code/crawler/scrapyProject/todayMoives [] 





图 5-10 Gi aE Ne 


至 此 ， 一 个 最 基本 的 爬虫 项 目 已 经 建立 完毕 了 ， 它 包含 了 一 个 Scrapy MER ite HSE MSC 
件 。 到 这 一 步 可 以 说 填空 题 已 准备 完毕 ， 后 面 的 工作 就 纯粹 是 填空 了 。 上 图 中 第 一 行文 字 
scrapy genspider 是 一 个 命令 ， 也 是 scrapy 最 常用 的 几 个 命令 之 一 ， 它 的 使 用 方法 如 图 5-11 所 
示 。 


scrapy genspider [options] <name> <domain> 


[Generate new spider using pre-defined templates 


show this help message and exit 
List available templates 
Edit spider after creating it 
|--dump=TEMPLATE, -d TEMPLATE 
Dump template to standard output 
|--template=TEMPLATE, -t TEMPLATE 
Uses a custom template. 
|--force If the spider already exists, overwrite it with the 
template 


Global Options 


|--1ogfile=FILE log file. if omitted stderr will be used 
|--1oglevel=LEVEL, -L LEVEL 
log level (default: DEBUG) 





图 5-11 scrapy genspider 命令 帮助 


因此 ， 刚 才 的 命令 意思 是 使 用 scrapy genspider 命令 创建 一 个 名 字 为 wuHanMoiveSpider 
的 爬虫 脚本 。 这 个 脚本 搜索 的 域 为 jycinema.com。 


5.3.2 Scrapy 文件 介绍 


Scrapy 项 目的 所 有 文件 都 已 经 到 位 了 ， 如 上 图 5-10 所 示 ， 下 面 来 看 看 各 个 文件 的 作用 。 
首先 最 顶层 的 那个 todayMoive 文件 夹 是 项 目 名 ， 这 个 没什么 好 说 的 。 
在 第 二 层 中 是 一 个 与 项 目 同名 的 文件 夹 todayMoive 和 一 个 文件 scrapy.cfg， 这 里 与 项 目 
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同名 的 文件 夹 todayMoive 是 模块 (也 可 以 叫做 包 的 )， 所 有 的 项 目 代码 都 在 这 个 模块 (文件 
KRAE) 内 添加 。 而 scrapy.cfg 文件 ， 顾 名 思 义 它 是 整个 Scrapy 项 目的 配置 文件 。 来 看 
看 这 个 文件 里 有 些 什么 。Scrapy.cfg 文件 内 容 如 下 : 





除去 以 “#” 为 开头 的 注释 行 ， 整 个 文件 只 声明 了 两 件 事 。 一 是 定义 默认 设置 文件 的 位 置 
为 todayMoive 模块 下 的 settings 文件 ， 二 是 定义 项 目 名 称 为 todayMoive。 

在 第 三 层 中 有 6 个 文件 和 一 个 文件 夹 (实际 上 这 也 是 个 模块 ) 。 看 起 来 很 多 。 实 际 上 有 
用 的 也 就 3 个 文件 ， 分 别 是 items.py、pipelines.py、settings.py。 其 他 的 3 个 文件 中 ， 以 pyc 
结尾 的 是 同名 Python 程序 编译 得 到 的 字 节 码 文件 ，settings.pyc 是 settings.py 的 字 节 码 文件 ， 
__init_.pye 是 _init_ .py 的 字 节 码 文 件 。 据 说 用 来 加 快 程序 的 运行 速度 ， 可 以 忽视 。 至 于 
init__.py 文件 ， 它 是 个 空 文件 ， 里 面 什么 都 没有 。 在 此 处 唯一 的 作用 就 是 将 它 的 上 级 目录 
变 成 了 一 个 模块 。 也 就 是 说 第 二 层 的 todayMoive 模块 下 ， 如 果 没 有 _init_.py 文件 。 那 么 
todayMoive 就 只 是 一 个 单纯 的 文件 夹 。 在 任何 一 个 目录 下 添加 一 个 空 的 _init_.py 文件 ， 就 
会 将 该 文件 夹 编程 模块 化 ， 可 以 供 Python 导入 使 用 。 

有 用 的 这 3 个 文件 中 。settings.py 是 上 层 目录 中 scrapy.cfg 定义 的 设置 文件 。settings.py 
的 内 容 如 下 : 
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Python 网 络 怜 虫 实战 》 





items.py 文件 的 作用 是 定义 聆 虫 最 终 需 要 哪些 项 ，items.py 的 内 容 如 下 : 





pipelines.py 文件 的 作用 是 扫尾 。Scrapy 疏 虫 疏 取 了 网 页 中 的 内 容 后 ， 这 些 内 容 怎 么 处 理 
就 取决 于 pipelines.py 如 何 设置 了 。pipeliens.py 文件 内 容 如 下 : 





第 二 层 中 还 有 一 个 spiders 的 文件 夹 。 仔 细 看 一 下 ， 在 该 目录 下 也 有 个 _init_.py 文件 ， 
说 明 这 个 文件 夹 也 是 一 个 模块 。 在 该 模块 下 是 本 项 目 中 所 有 的 爬虫 文件 。 

第 三 层 中 有 3 个 文件 ，_init_.py、__init_ .pyc、wuHanMoiveSpiderpy。 前 两 个 文件 刚 
才 已 经 介绍 过 了 ， 基 本 不 起 作用 。wuHanMoiveSpiderpy 文件 是 刚才 用 scrapy genspider 命令 
PEER F. wuHanMoiveSpider.py 文件 内 容 如 下 : 


122 





#5 Scrapy MEHER 





在 本 次 的 朴 虫 项 目 示例 中 ， 需 要 修改 、 填 空 的 只 有 4 个 文件 ， 它 们 分 别 是 items.py、 
settings.py ~ pipelines.py 、 wuHanMoiveSpiderpy 。 其 中 items.py 决定 爬 取 哪些 项 目 ， 
wuHanMoiveSpiderpy WEA E, settings.py 决定 由 谁 去 处 理 爬 取 的 内 容 ，pipelines.py 决定 
疏 取 后 的 内 容 怎样 处 理 。 


5.3.3 Scrapy ERR 


My first scrapy crawl GAH. BAR RRB AK. AAEREN BRKE, W 
我 们 只 需要 在 网 页 中 采集 这 一 项 即 可 。 


1 . 选择 肛 取 的 项 目 items.py 
修改 items.py 文件 如 下 : 


由 于 Python 中 严格 的 格式 检查 。Python 中 最 常见 的 异常 IndentationError 会 经 常 出 现 。 如 


果 使 用 的 编辑 器 是 vi 或 者 vim， 强 烈 建议 修改 vi 的 全 局 配置 文件 /etc/vim/vimrc， 将 所 有 
的 4 个 空格 变 成 tab。 
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与 最 初 的 items.py EB F, BUR ANIC R ET RRR SCN Pe ANS I T Ta E TIL 
目 ， 然 后 将 类 结尾 的 pas 去 掉 了 。 这 个 类 的 定义 不 同 于 标准 的 Python 类 ， 它 没有 一 般 
Python 类 的 _init_ 的 解析 函数 ， 没 有 类 函数 ， 只 定义 了 类 成 员 。 虽 然 它 从 结构 上 更 类 似 于 
Python 的 字典 ， 但 毫 无 疑问 它 的 确 就 是 一 个 Python X. 


2 . 定义 怎样 他 取 wuHanMoiveSpider.py 
修改 wuHanMoiveSpider.py， 内 容 如 下 : 





在 这 个 python 文件 中 ， 首 先导 入 了 scrapy 模块 ， 然 后 从 模块 〈 包 ) todayMoive 中 的 
items 文件 中 导入 了 Todaymoiveltem 类 ， 也 就 是 刚才 定义 需要 息 行 内 容 的 那个 类 。 
WuhanmoiveSpider 是 一 个 自 定义 的 候 虫 类 ， 它 是 由 scrapy genspider 命令 自动 生成 的 。 这 个 自 
定义 类 继承 于 scrapySpider 类 。 第 7 行 的 name 定义 的 是 朴 虫 名 。 第 8 行 的 allowed_domains 
EIERE, EAE ERR AEEA EIT. F 9 行 的 start_urls 定义 的 是 疏 行 的 
网 页 ， 这 个 朴 虫 只 需要 疏 行 一 个 网 页 ， 所 以 在 这 里 start_urls 可 以 是 一 个 元 组 类 型 。 如 果 需 要 
疏 行 多 个 网 页 ， 最 好 使 用 列表 类 型 ， 以 便于 随时 在 后 面 添加 需要 疏 行 的 网 页 。 

MERX H parse 函数 需要 参数 response， 这 个 response 就 是 请 求 网 页 后 返回 的 数据 。 至 
于 怎么 从 response 中 选取 所 需 的 内 容 ， 笔 者 一 般 采 取 两 种 方法 ， 一 是 直接 在 网 页 上 查看 网 页 
源 代码 ， 二 是 自己 写 个 python 程序 用 urllib2 将 网 页 返回 的 内 容 写 入 到 文本 文件 中 ， 再 慢 慢 地 
查询 。 
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打开 Chrome 浏览 器 ， 在 地 址 栏 输入 店 取 网 页 的 地 址 ， 打 开 网 页 ， 如 图 5-12 所 示 。 











* IMAX 3D uses 
fiend 


贺 宝贝 当家 (数字 ) 





星期 五 , 29 七 月 2016 


221030 EZE 12:20 


81940 28 21:30 





图 5-12 ”爬虫 来 源 网 页 
同一 网 页 内 的 同一 项 目 格式 基本 上 都 是 相同 的 ， 所 以 只 需要 找到 一 个 项 目的 选择 器 位 置 
就 可 以 了 。 就 以 最 上 面 的 这 个 电影 《宝贝 当家 》 为 例 ， 在 网 页 中 右 击 空白 处 ， 在 弹出 菜单 中 
选择 “查看 网 页 源 代码 ”， 如 图 5-13 所 示 。 


返回 (B) 


P” EFOR) 
宝贝 当家 (RF) 
a BAIA). 


星期 五 , 29 七 月 2016 HDP 


= E 10:30 =E E 12:20 BREL (wit) T) 
© AdBlock 
3 E E 19:40 ME E 21:30 @ Download all links with IDM 





查看 网 页 源 代码 (V) Ctrl+U 
检查 (N) trl+ Shift + 


5-13 查看 网 页 源 代码 


打开 源 代码 网 页 ， 按 Ctrl+F 组 合 键 ， 在 查找 框 中 输入 “宝贝 当家 ”后 按 回 车 键 ， 查 找 结 
果 如 图 5-14 所 示 。 









59 
360 | <div clas="filw-list”> 
361 <div data cinena-id-"1029" datamovie-id="dscaDdKgL" data-att ribute~short-nane="*> 
362 o 
363 uter”) 
364 <div style="background-inage: url ( //ww. jycinena, con/CDH/Inage/Ent ity/FilaPosterGr aphic/h-dscaDdMteL.? 
width=121anp jhei ght= 181" )"> 
65 sPoste zl 





375 </div> 

















5-14 查找 关键 词 
整个 源 代码 网 页 只 有 一 个 查询 结果 ， 屠 就 是 它 了 。 仔 细 看 看 怎样 才能 得 到 这 个 字符 串 
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We? 用 XPath 一 个 一 个 地 数 Tag 标签 ， 不 是 不 可 以 ， 只 是 使 用 Scrapy 就 是 为 了 简单 方便 ， 如 
果 要 一 个 一 个 地 数 ， 那 和 使 用 re 模块 获取 字符 串 也 就 没什么 区 别 了 。 

这 里 通常 使 用 嵌 套 选择 器 。 一 个 字符 串 不 好 选 ， 但 这 个 标签 块 却 很 好 选 ， 然 后 在 标签 块 
中 选择 字符 串 ， 这 样 就 方便 多 了 。 比 如 选择 离 目标 字符 串 最 近 的 标签 <div class="film- 
header">， 在 脚本 中 执行 语句 : 


意思 是 选择 整个 网 页 中 所 有 以 div 为 标签 class 属性 为 “film-header” 的 块 ，subSelector 
是 一 个 列表 ， 里 面 装 的 是 选择 器 。 然 后 再 执行 语句 : 


意思 是 在 这 个 块 中 ， 选 择 下 级 标签 为 <a> 的 下 级 标签 为 <h3> 的 字符 串 ， 并 将 其 解析 出 
来 。 选 择 器 的 选择 到 底 对 不 对 呢 ? 可 以 验证 一 下 ， 在 该 项 目的 任意 一 级 目录 下 ， 执 行 命令 : 


执行 结果 如 图 5-15 所 示 。 


[2016-07-26 23:34:33+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid ^ 
ldleware, OffsiteMiddleware, RefererMiddleware, UrllengthMiddieware, DepthMiddlew 
are 

[2016-07-26 23:34:33+0800 [scrapy] INFO: Enabled item pipelines: TodaymoivePipeli 


Ine 
[2016-07-26 23:34:33+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


[2016-07-26 23:34: papel [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
[2016-07-26 23:34 [wuHanMoiveSpider] INFO: Spider opene 

[2016-07-26 23:34: 2800 IwaHanMoivespider] DEBUG: Crawled (200) <GET http://www 
Jyeinema.com/browsing/Cinemas/Details/1029> (referer: None) 


Shell help (print this help) 


[3] view(response) View response in a browser 





图 5-15 scrapy shell 


response 后 面 的 200 是 网 页 返回 代码 ，200 代表 获取 数据 正常 返回 ， 如 果 出 现 其 他 的 数 
字 ， 那 就 得 仔细 检查 代码 了 。 现 在 可 以 放心 地 验证 了 ， 执 行 命令 : 


执行 结果 如 图 5-16 所 示 。 
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2016-07-26 23:42:37+0800 [wuHanMoiveSpider] INFO: Spider opened 可 
2016-07-26 23:42:38+0800 [wuHanMoiveSpider] DEBUG: Crawled (200) <GET http://www 
-Jycinema.com/browsing/Cinemas/Details/1029> (referer: None) 


<scrapy.crawler.Crawler object at 0x7£776fad0910> 


<GET http://www. jycinema.com/browsing/Cinemas/Details/1029> 

<200 http://www. jycinema.com/browsing/Cinemas/Details/1029> 

<scrapy.settings.Settings object at 0x7£77704c3750> 
veSpider 'wuHanMoiveSpider' at 0x7f776ec66110> 


Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 


tn [1]: subSelector = response.xpath('//div[@class="film-header"] ") 


rn [2]: print subSelector[0] .xpath(*./a/h3/text()*) „extract () 
[u'\uSb9d\usdid\u5£53\uSbbé \uff08\u6570\u5b57\uff09'] 


tn [3]: print subSelector[0] .xpath('./a/h3/text()') .extract() [0] encode (‘utf8") 
[$ 





图 5-16 验证 选择 器 


第 一 次 print 的 结果 是 一 堆 数 字 码 ， 那 是 因为 scrapy 默认 将 疏 取 的 内 容 转 成 了 unicode 
码 。 如 果 要 把 它 变 成 可 见 的 汉字 ， 那 就 将 字符 串 使 用 encode(“utf8’) 转 换 成 utf8 码 。 

看 来 选择 器 的 选择 没 问题 。 再 回头 看 看 wuHanMoiveSpider.py 中 的 parse 函数 就 很 容易 理 
解 了 。 代 码 第 14 行 先 用 选择 器 选择 了 一 个 “ 块 ”。 第 15 行 定 义 了 一 个 items 的 空 列 表 ， 这 
里 定义 items 的 列表 是 因为 返回 的 item 不止 一 个 ， 所 以 只 能 让 item 以 列表 的 形式 返回 。 第 17 
行 item 初始 化 为 一 个 Todaymoizeltem() 的 类 ， 这 个 类 是 从 todayMoive.items 中 导入 过 来 的 。 
第 18 行将 已 经 初始 化 类 item 中 的 moiveName 项 赋值 。 第 19 行将 item 追加 到 items 列表 中 
去 。 最 后 return items， 注 意 这 里 返回 的 是 items， 不 是 item。 


3 . 保存 肥 取 的 结果 pipelines.py 
修改 pipelines.py， 内 容 如 下 : 
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这 个 脚本 没什么 可 说 的 ， 比 较 简单 。 就 是 把 当日 的 年 月 日 抽取 出 来 当成 文件 名 的 一 部 
分 。 然 后 把 wuHanMoiveSpider.py 中 获取 项 的 内 容 输入 到 该 文件 中 。 这 个 脚本 中 只 需要 注意 
两 点 。 第 一 ，open 函数 创建 文件 时 必须 是 以 追加 的 形式 创建 ， 也 就 是 说 open 函数 的 第 二 个 
参数 必须 是 a。 因 为 wuHanMoiveSpiderpy 返回 的 是 一 个 item 列表 items， 这 里 的 写 入 文件 只 
能 一 个 一 个 item 地 写 入 。 如 果 open 函数 的 第 二 个 参数 是 w， 造 成 的 后 果 就 是 先 控 除 前 面 写 
入 的 内 容 ， 再 写 入 新 内 容 ， 一 直 循环 到 items 列表 结束 ， 最 终 的 结果 就 是 文件 里 只 保存 了 最 
后 一 个 item 的 内 容 。 第 二 是 保存 文件 中 的 内 容 如 果 含 有 汉字 就 必须 转换 成 utf8 码 。 汉 字 的 
unicode 码 保存 到 文件 中 正常 人 类 都 是 无 法 识别 的 ， 所 以 还 是 转换 成 正常 人 类 能 识别 的 utf8 
吧 。 

到 了 这 一 步 ， 这 个 Scrapy 疏 虫 基本 上 完成 了 。 回 到 scrapy.cfg 文件 的 同 级 目录 下 实际 
上 只 要 是 在 todayMoive 项 目下 的 任意 目录 中 执行 都 行 ， 之 所 以 在 这 一 级 目录 执行 纯粹 是 为 了 
美观 而 已 )， 执 行 命令 : 


scrapy crawl wuHanMoivespider 
结果 却 什么 都 没有 ? 为 什么 呢 ? 
4 . 分 派 任务 的 settings.py 


KAA settings.py 的 初始 代码 。 它 仅 指定 了 Spider 爬虫 的 位 置 。 再 看 看 写 好 的 Spider ME 
虫 的 开头 ， 它 导入 了 items.py 作为 模块 ， 也 就 是 说 现在 Scrapy 已 经 知道 了 扑 取 哪些 项 目 ， 怎 
PEERAA, mi pipelines 说 明了 最 终 的 仆 取 结果 怎样 处 理 。 唯 一 不 知道 的 就 是 由 谁 来 处 理 这 
个 爬行 结果 ， 这 时 候 就 该 setting.py 出 点 力气 了 。setting.py 的 最 终 代码 如 下 : 








第 5 章 Scrapy (eRe 


这 跟 初 始 的 settings.py 相 比 ， 就 是 在 最 后 添加 了 一 行 ITEM_PIPELINES。 它 告诉 Scrapy 
最 终 的 结果 是 由 todayMoive 模块 中 pipelines 模块 的 TodaymoivePipeline 类 来 处 理 。 
ITEM_PIPELINES 是 一 个 字典 ， 字 典 的 key 用 来 处 理 结果 的 类 ， 字 典 的 value 是 这 个 类 执行 
的 顺序 。 这 里 只 有 一 种 处 理 方式 ，value 填 多 少 都 没 问 题 。 如 果 需 要 多 种 处 理 结 果 的 方法 ， 那 
就 要 确立 顺序 了 。 数 字 越 小 的 越 先 被 执行 。 

现在 可 以 测试 这 个 Scrapy ERT, PMT AS: 


执行 结果 如 图 5-17 所 示 。 








Ea RF) 
BWE RFD) 

AFS 《数字 7 

红色 等 式 999 (at) 

ERAS. FM Cee) 
FERENCE) 
Sias: 新 ARIE AEE (ME) 


(=) 
《数字 ) 
(nax 30) 
《数字 3D7 

DR BRE tzo 


5-17 Scrapy ERAR 


ET, KARAER REET. MAMEA ATH, Scrapy MERR ARE E 
路 照章 填空 就 可 以 了 。 如 果 需 要 的 项 比较 多 ， 获 取 内 容 的 网 页 源 比较 复杂 或 者 不 规范 ， 可 能 
会 稍微 麻烦 点 ， 但 处 理 起 来 基本 上 都 是 大 同 小 异 的 。 与 前 章 的 re 爬虫 相 比 ， 越 复杂 的 爬虫 就 
越 能 体现 Scrapy 的 优势 。 


5 ° & Scrapy EES : 天 气 预报 


上 节 使 用 Scrapy 做 了 一 个 最 简单 的 候 虫 。 本 节 稍微 增加 点 难度 ， 做 个 所 需 项 目 多 一 点 的 
的 虫 ， 并 将 息 虫 的 结果 以 多 种 形式 保存 起 来 。 我 们 就 从 网 络 天 气 预报 开始 吧 。 
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5.4.1 项 目 准 备 


首先 要 做 的 是 确定 网 络 天 气 数据 的 来 源 。 打 开 百 度 ， 搜 索 “ 网 络 天 气 预报 ”， 搜 索 结果 
如 图 5-18 所 示 。 
















a 
oe me 音乐 BR zA 地 图 XE 更 多 » 

BRIR 
MANNE BHA 


THRNEBA SUE SSE. 


HRA SMANARIRE RETRATAR. RE 
WHEN. OA. SMBS TOES ARENES 








图 5-18 百度 搜索 数据 来 源 站 点 


有 很 多 网 站 可 以 选择 ， 任 意 选 择 一 个 都 可 以 。 这 里 笔者 选择 的 是 
http://wuhan.tianqi.com/。 在 浏览 器 中 打开 该 网 站 ， 并 找到 所 属 的 城市 ， 将 会 出 现 当 地 一 周 的 
天 气 预报 ， 如 图 5-19 所 示 。 


武汉 天 气 预报 武汉 生活 指数 武汉 历史 天 气 | VE 


武汉 今天 天 气 武汉 当前 温度 风向 风力 ms 90 9 
Riti: 通 宜 
31.6° 洗车 指数 ， 较 通 宜 
ee 3 Kaa EA 
33 z Sy 
多 云 相对 湿度 : 44% 东北 风 aire EREE 
东北 风 2R 20 HR manm 天 天 播报 天 气 | Re ED? 
湖北 武汉 天 气 预报 一 周 武汉 10 天 天 气 。 武汉 15 天 天 气 。 武汉 30 天 天 气 
武汉 今日 天 气 。 。 ”武汉 明日 天 气 EART 。 。 武汉 0 日 天 气 ROTHER ROAR 
星期 六 zma 星期 一 星期 二 星期 = 星期 四 
33C22C arcae 3lCY2C 30C 20C aiC2iC azeze 
Bz 多 去 多 去 明 多云 i] 


5-19 本 地 一 周 天 气 


在 这 里 ， 包 含 的 信息 有 城市 日 期 、 星 期 、 天 气 图 标 、 温 度 、 天 和 气 状况 以 及 风向 。 除 了 天 
气 图 标 是 以 图 片 的 形式 显示 ， 其 他 的 几 项 都 是 字符 串 。 本 节 Scrapy 疏 虫 的 目标 将 包含 所 有 的 
有 用 信息 。 至 此 ，items.py 文件 已 经 呼之欲出 了 。 
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5.4.2 ”创建 编辑 Scrapy MER 


首先 还 是 打开 Putty, HERES) Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 并 根据 提示 依照 
spider 基础 模版 创建 一 个 spider。 执 行 命令 : 





执行 结果 如 图 5-20 所 示 。 


king@debian:~$ ca 

king@debian:~$ cd code/crawler/scrapyProject/ 

king@debian:~/code/crawler/scrapyProject$ scrapy startproject weather 

|New Scrapy project ‘weather’ created in: 
/mnt/disk/sync/code/crawler/scrapyProject/weather 


You can start your first spider with: 
cd weather 
scrapy genspider example example.com 

king@debian:~/code/crawler/scrapyProject$ cd weather 

king@debian:~/code/crawler/scrapyProject/weather$ scrapy genspider wuHanSpider_w 
n.ti i. com 

Teated spider ‘wuHanSpider’ using template 'basic' in module: 

weather. spiders. wuHanSpider 
king@debian:~/code/crawler/scrapyProject/weathers [] 





图 5-20 创建 Scrapy 项 目 
项 目 模版 创建 完毕 ， 项 目 文件 如 图 5-21 所 示 。 


king@debian:~/code/crawler/scrapyProject/weather$ tree ../weather 
../weather 


E scrapy.cfg 
weather 


init__.py 
—init_.pye 
items.py 
pipelines.py 
settings.py 
settings.pyc 


init__.py 
init .pyc 
wuHanSpider.py 


2 directories, 10 files 
king@debian:~/code/crawler/scrapyProject/weathers [| 





5-21 ”基础 项 目 模版 


1 . 修改 items.py 
按照 上 一 节 中 的 顺序 ， 第 一 个 要 修改 的 还 是 items.py。 修 改 后 的 items.py 代码 如 下 : 
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在 items.py 文件 中 ， 只 需要 将 希望 获取 的 项 名 称 按照 文件 中 示例 的 格式 填 入 进去 即 可 。 
唯一 需要 注意 的 就 是 每 一 行 最 前 面 的 到 底 是 空格 还 是 Tabstop。 这 个 文件 可 以 说 是 Scrapy ME 


虫 中 最 没有 技术 含量 的 一 个 文件 了 。 填 空 ， 就 是 填空 而 已 。 
2 . 修改 Spider 文件 wuHanSpiderpy 


按照 上 一 节 的 顺序 ， 第 二 个 修改 的 文件 应 该 轮 到 spiders/wuHanSpiderpy 了 。 和 暂时 先 不 要 


修改 文件 ， 使 用 scrapy shell 命令 来 测试 、 获 取 选 择 器 。 执 行 命令 : 


执行 结果 如 图 5-22 所 示 。 


ddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 
2016-07-28 02:13:53+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
Jdieware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 
jare 
2016-07-28 02:13:53+0800 [scrapy] INFO: Enabled item pipelines: 
2016-07-28 02:13:53+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
ozs 
2016-07-28 02:13:53+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
2016-07-28 02:13:53+0800 [wuHanSpider] INFO: Spider opened 
2016-07-28 02:13:53+0800 (wuHanSpider] DEBUG: Crawled (200) <GET http://wuhan.ti 


{} 
<GET http://wuhan.tianqi.com> 
:Lvahan ciangi com> 
settings <scrapy.setrings.sertangs object at 0x7f640420a790> 
<WuhanspiderSpider 'wuHanSpider' at 0x7f64029a9050> 


Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 


5-22 scrapy shell 
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从 上 图 可 看 出 response 的 返回 代码 为 200， 是 正常 返回 ， 已 成 功 获 取 该 网 页 的 response。 
下 面 开始 试验 选择 器 了 。 打 开 Chrome 浏览 器 〈 任 意 一 个 浏览 器 都 可 以 ， 哪 个 方便 用 哪 
个 ) ， 在 地 址 栏 输入 http://wuhan.tiangi.com, 4% Enter 键 打开 网 页 。 在 “武汉 今天 天 气 ” 这 个 
框架 内 任意 空白 处 单 击 右键 ， 选 择 “ 查 看 框架 源 代码 ”《〈 有 的 城市 页 面 没有 使 用 框架 如 上 
海 ， 那 还 是 选择 “查看 网 页 源 代 码 ”) ， 如 图 5-23 所 示 。 
















REAR 武汉 生活 指数 | 武汉 历史 天 气 | ETAR 今天 气温 较 高 ， 出 门 注意 防 署 防 硒 趴 
武汉 今天 天 气 武汉 当前 温度 pea 
aped ane Alt+ pref 
50- EFHRR) Ctri+R 
25-§30.7° 4 
2 SEDA) Ctrles 
ar = FDP). Ctrl+P 
畏 相对 湿度 : cox BRP (S) T) 
南 风 R 24 小 时 天 气 预报 wa 
© AdBlock » 
湖北 武汉 天 气 预报 一 周 @ Download all links with IDM 
武汉 今日 天 气 武汉 明日 天 气 武汉 后 天 天 气 
星期 五 星期 六 星期 日 
trl +Shift +1 
mere 3TC2TC 3TC2TC 35C2TC eTe HC 
晴 G 晴 多 云 A AA 


ERIR EAE] MO 无 持续 风向 RRL 无 持续 风向 微风 HIINA 无 持续 风向 NA 
图 5-23 查看 源 代码 


在 框架 源 代码 页 ， 使 用 Ctrl+f 组 合 键 查找 关键 词 “ 星 期 ”， 很 容易 就 找到 所 需 数据 的 位 
如 图 5-24 所 示 。 


<span style=" Line heights 32px 
href="http://wuhan. ti angi. comV15/ "> 武汉 15 天 : 
</div> 
<div class="sixday_detail”> 
<div class="everytqshow” id=" detail”> 


《<div clas="tqgshowl">hDHRR<font color="#0066cc">S A</font K/h pZ </p><ul <li class="tapng" ><ing class=’ 
shonidel re Toi con/ stat ic/inaces/*imaibig/¥. pre” style" border: 0; width: 46px ;hei ght : 46px’ /></1i><1i><font 
color="#£00">37°C</font >“<font color="#4899be">27°C</font </1i>vHA/1i><1i_ style="height :1 8px: overflow:hidden > 南 风 188</1i></ul ><, 
<div class= "tqshowl">hD>RR<font color="red >BAA/font >AT/h3><p><font color=’ green’ BMI7</font></p> <ul> di 





class=" zhoubi antiangi"><a href="http:// 
</ abit 12288 ; #12288: <a href="http://wuhan. t: 
















http://ing. tiangi, com static/images/tianaibig/b0. png’ 
border :0:width:46px:height :46px" D> Y1iX1iXfont color=" #00>3T CY font> ont color="#4899be” >2TC</font ANDID li Xli 
height :18px; overflow:hidden > 无 持续 风向 RAV1i/uD Y div> 
<div class="tqshow!">chDHRR<font color="red” PERY font R T/k <p><font eae green EMA </font></p>ubdai 


class="tapng"><ing class=" pngtqico’ align=’ absniddle’ src=" 






border:0.width:dépx height s4Gpx"/></1iocli><font color= #400 ICY fot? font colors PB TEY Tont /1D DVX 
height : 18px: overflow:hidden > 无 持续 风向 微风 人 1i></uD> Y div> 

<div clas="tqshowl">hDH RO ARA/h3><pM—</p><ub Ai class="tqpng"><ing class=’ pngtqico’ aligre’ absniddle” 
src=’ http://ing, tiangi, cow static/inages/timaibig/bl.png’ style=" border: 0; width: 6p :height: 46px’ /></1i><Li>font_color="#£00" 23504 
<font color="#4899be"22TC</font>/1i 1 HAY Ai style="height: 18px ;overflow;hidden"> 无 持续 风向 (MA </1i></ul></div> 

<div class="tgshowl"><h3>HROZARAVh3><p> SMA /p>ul> i clas=“tqpng”><ing class=’ pngtqico’ aligre’ absmiddle’ 

src=’ http://ing. tiangi, con/ stat ic/inages/timaibig/bT.png’ style=’ border: 0; width: 46px height: 46px’ /></1i><1i><font_color="#£00" >35°C<, 
<font color="#4899be" >2TC</fant>/1i 1a AI/1D Ai style= “hei ght: 18px overflow:hidden > 无 持续 风向 MPA </1i></ul></div> 
<div class="tqshowl ">hDRROGARA/hI <p? SMA= pulli class="tapne”><ing class=’ pngtqico’ aligre’ absniddle” 











src=’ http://ing. tiani. co ic tiangibiz/bl.png' style=" border: 0; width: 46px height: 46x’ /></1i0Gi><font color="##00" >34C< 
<font color="#4899be" >26°C</font></1iX<1iNAI/1D Ai style="hei ght: 18px :overflow:hidden"> 无 持续 风向 TMP </1i></ul></div> 
</div> 
</div> 


5-24 ”查找 所 需 数据 位 置 


因为 所 需 数据 都 是 以 <div class="tqshow1"> 为 开头 的 ， 试 下 查找 页 面 还 有 没有 其 他 以 <div 
class="tqshow1"> 为 开头 的 数据 。 如 果 没 有 就 可 以 将 <div class="tqshow1"> 作 为 XPath 的 锚 
点 ， 如 图 5-25 所 示 。 
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<div class="tashowl "><> ROARAShI<p>SM=/prubdi clas="tapng"><ing class=" pngtqico”aligrF absniddle” 




















i style=" border: 0; width: 46px :hei ght :46px’ /></1i><i><font_color="#f00" 34°Ce 
t colore Mabe AC UENO Y STUN IDL styles height: lope overflovrha den SEMAINE) MRD Jul </div> 
</div> 
</div> 


Æ 5-25 ”测试 锚 点 


从 测试 结果 看 出 ， 整 个 源 代 码 页 面 总 共 只 有 6 个 <div class="tqshow1"> 标 签 ， 可 以 将 它 作 
为 XPath 锚 点 。 回 到 Putty 下 的 scrapy shell 中 ， 执 行 命令 : 


执行 结果 如 图 5-26 所 示 。 


B® king@debian: ~/code/crawler/scrapyProject 





In [9]: subSelector = response.xpath('//div[@class="tqshow1"]') 


In [10]: subSelector 

[out [10] : 

[<Selector xpath='//div[@class="tqshowl"]' data=u'<div class="tqshowl"><h3>\u6b6 
6\u6c49<font color="'>, 

<Selector xpath='//div[@class="tqshowl"]' data=u'<div class="tqshowl"><h3>\u6b6 
6\u6c49<font color="'>, 

<Selector xpath='//div[@class="tqshowi"]' data=u'<div class="tqshowl"><h3>\u6b6 
6\u6c49<font color="'>, 

<Selector xpath='//div[@class="tqshowl"]' data=u'<div class="tqshow1"><h3>\u6b6 
6\u6c4901\u65e5\u5929\u6c14</h3><pP>'>, 

<Selector xpath='//div[@class="tqshowl"]' data=u'<div class="tqshowl"><h3>\u6b6 
6\u6c4902\u65e5\u5929\u6c14</h3><p>'>, 

<Selector xpath='//div[@class="tqshowl"]' data=u'<div class="tqshow1"><h3>\u6b6 
6\u6c4903\u65e5\u5929\u6c14</h3><p>'>] 


In [11]: [ 








5-26 ”确定 XPath 锚 点 
然后 从 subSelector 中 提取 有 效 数据 ， 如 图 5-27 所 示 。 
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[In [18] :fsubSelector[0] .xpath ('./h3//text ()'). 0 
[Out [28] : f [u"\u6b66\u6c49", u'\useca\u65e5', u'\u5929\u6c14'] 


In [19]: subselecror[0] .xpath('./p/text()*)-extract () 
: [u'\u661f\u671f\u4e94'] 


: subSelector[0].xpath("./ul/1i[1]/img/@src') .extract () 
: [uthtup://img.tiangi.com/static/images/tiangqibig/b0.png") 


3 subSelector[0) .xpath(*./ul/1i[2]//text()').extract() 
+ [u'37\u2103", ut~', u'27\u2103'] 


: subSelector[0].xpath(‘./ul/1i[3]//text()').extract() 
+ [u'\u6674'] 


In [23]: subSelector[0].xpath('./ul/1i[4]//text()').extract() 
[Out [23]: [u'"\u5357\u98ce 1\u7ea7'] 








图 5-27 XPath 选择 器 获取 数据 


5-27 中 标识 了 item['cityDates'] 所 需 数据 的 来 源 位 置 和 XPath 选择 器 的 工作 流程 (因为 
h3 标签 内 还 含有 其 他 的 标签 ， 所 以 这 里 选择 方式 为 'h3Wtext(' 而 不 是 'h3/text0')。 到 这 一 步 ， 
Scrapy 项 目的 Spider 文件 wuHanSpider.py 也 已 成 形 了 。wuHanSpider.py 的 代码 如 下 : 
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文件 开头 别 忘 了 导入 scrapy 模块 和 items 模块 。 在 第 8~11 行 中 ， 给 start_urls 列表 添加 
了 上 海天 气 的 网 页 〈 刚 创建 时 wuHanSpiderpy 时 ，start_urls 是 一 个 元 组 ， 为 了 便于 添加 多 个 
网 页 ， 所 以 将 start_urls 改 成 了 列表 )。 如 果 还 想 添 加 其 他 的 城市 天 气 ， 可 以 在 第 8 行 的 citys 
列表 中 添加 城市 代码 。 


3 . 修改 pipelines.py， 处 理 Spider 的 结果 
这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 





第 5 章 Scrapy ERER 








第 1 行 ， 确 认 字 符 编 码 。 回 想 一 下 ， 在 Spider 文件 wuHanSpiderpy 中 似乎 也 有 这 一 行 。 
这 是 因为 Scrapy 默认 将 所 有 获取 数据 的 编码 定义 成 utfg 。 第 8~10 行 ， 导 入 所 需 的 模块 。 第 
14~15 行 ， 用 time 模块 确定 了 当天 的 年 月 日 ， 并 将 其 作为 文件 名 。 第 17~29 行 ， 将 所 获取 的 
数据 转换 为 编码 ， 然 后 存储 到 文件 中 。 第 30 行 用 time.sleep 暂停 1 秒 ， 可 以 避免 因为 数据 写 
入 太 快 而 丢失 数据 的 问题 。 如 果 得 到 的 数据 为 图 片 ， 将 使 用 urllib2 模块 下 载 图 片 到 当前 目录 
Fo os 模块 用 于 判断 图 片 是 否 已 经 下 载 过 。 


4 . 修改 settings.py , 决定 由 哪个 文件 来 处 理 获取 的 数据 


这 个 就 很 简单 了 ， 跟 上 节 的 settings.py 没什么 区 别 ， 直 接 将 pipelines.py 添加 到 
ITEM_PIPELINES 中 去 就 可 以 了 。settings.sp 文件 内 容 如 下 : 





最 后 ， 回 到 weather 项 目下 ， 执 行 命令 : 
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得 到 结果 如 图 5-28 所 示 。 


pre pog pene oe am 

星期 六 bo.png 370-287 M 东南 风 1-2 级 

星期 日 bi.png 35T-287 $Z KER 1-2 级 
bo.png 370-287 BF 南 风 3 级 
bi.png 357-2801 $Z 。 东南 风 1-2 级 
bo.png 37t~28t 清 无 持续 风向 微风 
bi.png 350-271 $Z KER 1-2 级 
bo.png 37t~29t 畏 无 持续 风向 微风 
bs.png 330-270 FR 东 商 风 1-2 级 
bl.png 350-271 $Z 。 无 持续 风向 微风 
b7.png 357-270 小 十 无 持续 风向 微风 


图 5-28 保存 结果 为 txt 


至 此 ， 一 个 完整 的 Scrapy 疏 虫 已 经 完成 了 。 这 个 朴 取 天 气 的 朴 虫 比 上 一 个 稚 取 电影 的 疏 
虫 稍微 复杂 一 点 ， 但 流程 基本 是 一 样 的 ， 都 是 做 填空 题 而 已 。 


5.4.3 ”数据 存储 到 json 

上 节 已 经 完成 了 一 个 Scrapy 爬虫 ， 并 将 其 爬 取 的 结果 保存 到 了 txt 文件 。 但 txt 文件 的 优 
点 仅仅 是 方便 阅读 ， 而 程序 阅读 一 般 都 是 使 用 更 方便 的 json、cvs 等 等 格式 。 有 时 程序 员 更 加 
希望 将 仆 取 的 结果 保存 到 数据 库 中 便于 分 析 统 计 。 所 以 ， 本 节 将 继续 讲解 Scrapy MERIR 
方式 ， 也 就 是 继续 对 pipelines.py 动手 术 。 

这 里 以 json 格式 为 例 ， 其 他 的 格式 都 大 同 小 异 ， 读 者 可 自行 摸索 测试 。 既 然 是 保存 为 
json 格式 ， 当 然 就 少不了 Python 的 json 模块 了 。 幸 运 的 是 json 模块 是 Python 的 标准 模块 ， 
无 须 安装 可 直接 使 用 。 

PRAGMA, Mo EW RT pipelines.py。 我 们 可 以 直接 修改 这 个 文件 ， 然 后 再 修改 一 
下 settings.py 中 的 ITEM_PIPELINES 项 即 可 。 但 是 仔细 看 看 settings.py 中 的 
ITEM_PIPELINES 项 ， 它 是 一 个 字典 。 字 典 是 可 以 添加 元 素 的 。 因 此 完全 可 以 自行 构造 一 个 
Python 文件 ， 然 后 把 这 个 文件 添加 到 ITEM_PIPELINES 不 就 可 以 了 吗 ? 这 个 思路 是 否 可 行 ， 
测试 一 下 就 知道 了 。 

为 了 “表明 身份 ”， 笔 者 给 这 个 新 创建 的 Python 文件 取 名 为 pipelines2json.py， 这 个 名 
字 简 单 明了 ， 而 且 显示 了 与 pipellines.py 的 关系 。pipelines2.json 的 文件 内 容 如 下 : 
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然后 修改 settings.py 文件 ， 将 pipelines2json 加 入 到 ITEM_PIPELINES 中 去 。 修 改 后 的 
settings.py 文件 内 容 如 下 : 





Python MERER 


测试 一 下 效果 。 回 到 weather 项 目下 执行 命令 : 


得 到 的 结果 如 图 5-29 所 示 。 
2 koged 


t= (ede! caver /serapytralect/wenthert 23 

20180723. Json bO-png bi png Be-pag weather 

[20160729.txt bl.png b7.png apy.cfg 

ct/weather$ more *.json 

srt ete sing”: sheep://img.tiangt-com/scati 
"RRSARA, "weather": "Hi", "wind" 









ae wimg": "http://img.tiangi.com/stati 
"ife, "wind" 


~28 
TER RA", “weather 


", "temperature": "39T wastes Baga p://img. hager com/stati 







|e/images/tiongibig/b4. png"，"cityDate": "LESH "，"weather": "GER", "wi! 

jna": *: ta 微风 "} 

tmweek": "EME", ee os7t~290e, whey sald //img.tianqi.com/statil 
leramages /zianqibig/bo.pag", eicyDace™ "REESE, ather": "ER", "wind": 
"无 持续 风向 微风 "} 

{mweek": "星期 六 "， De "37T-280" wimg": heep: ered ciangi .com/svati 

E er eae pag", eieyDace™ ie ee "weathe: SH", “wind” 
bs Ze ， te ee -27 ae http://img.tiangi.com/stati| 





‘iangibig/bi.png™ weieyDace™ TR i", "weather": "SH", "wind 
风向 微风 "} 








: "EMH", "temperature": "35t~28t",， "img": "http://img.tiangi.com/stati 
a /olangibl /bl pag” weieyDace™: "上 海 后 天 天 气 "，"weachezn: "SE", "wind 


图 5-29 保存 结果 为 json 


从 上 图 看 来 试验 成 功 了 。 按 照 这 个 思路 ， 如 果 要 将 结果 保存 成 cvs 等 格式 ，settings.py 应 
该 怎么 修改 就 很 明显 了 。 


5.4.4 ”数据 存储 到 MySQL 


数据 库 有 很 多 ，MySQL、Sqlite3、Access、Postgresql 等 等 ， 可 选择 的 范围 很 广 。 笔 者 选 
择 的 标准 是 ，Python 支持 良好 、 能 够 跨 平台 、 使 用 方便 ， 其 中 Python 标准 库 默 认 支 持 
sqlite3 。 但 谁 让 Sqllit3 声名 不 显 呢 ，Access 不 能 跨 平台 。 所 以 这 里 笔者 选择 名 气 最 大 ， 
Python 支持 也 不 错 的 MySQL. MySQL 使 用 人 数 众多 ， 资 料 随处 可 见 ， 出 现 问题 咨询 也 挺 方 
E. REET. 

在 Linux 上 安装 MySQL 很 方便 。 首 先 连接 Putty 后 ， 使 用 root 用 户 权 限 ， 执 行 命令 : 


在 安装 过 程 中 ， 会 要 求 输入 MySQL 用 户 root 的 密码 (此 root 非 彼 root， 一 个 是 系统 用 
户 root， 一 个 是 MySQL 的 用 户 root)。 

MySQL 安装 完毕 后 ， 默 认 是 自动 启动 的 。 首 先 连接 到 MySQL 上 ， 查 看 MySQL 的 字符 
编码 。 执 行 命 令 : 


执行 结果 如 图 5-30 所 示 。 
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opyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


pe ‘helpr' cr '\h' for help. Type '\c' to clear the current input statement, 


1 
+ 

client 1 ucza 

| character_set_connection | ucf8 


| character_set_database 


uers 
1 /usr/snare/mysq1/cnarsets/ 
eee! paces me A 

le rows in set (0.00 sec) 


1 
1 
1 
1 
1 
1 
1 
1 
+ 


ysm> 0 





5-30 MySQL 默认 字符 编码 


其 中 character_set_database 和 character_set_server 设置 的 是 latin! 编码 ， 刚 才 用 Scrapy 采 
集 的 数据 都 是 utf8 编码 。 如 果 直 接 将 数据 加 入 数据 库 必 定 会 在 编程 处 理 中 出 现 乱 码 问题 ， 所 
以 要 稍微 修改 一 下 。 网 上 流传 着 很 多 彻底 修改 MySQL 默认 字符 编码 的 帖子 ， 但 由 于 版 本 的 
问题 ， 不 能 通用 。 所 以 只 能 采取 策 方法 ， 不 修改 MySQL 的 环境 变量 ， 只 在 创建 数据 库 和 表 
的 时 候 指 定 字符 编码 。 创 建 数据 库 和 表格 ， 在 MySQL 环境 下 执行 命令 : 





执行 结果 如 图 5-31 所 示 。 


Oracle is a registered trademark of Oracle Corporation and/or its 

or tnear respective 
‘ype ‘help:' or '\h' for help. Type '\c' to clear the current input statement. 
mysql> CREATE DATABASE scrapyDB CHARACTER SET 'utf8' COLLATE 'utf8 general Ci'; 


Query OK, 1 row affected (0.03 sec) 





图 5-31 创建 数据 库 
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其 中 第 一 条 命令 是 创建 了 一 个 默认 字符 编码 为 utfg、 名 字 为 scrapyDB 的 数据 库 。 第 二 条 
命令 进入 数据 库 。 第 三 条 命令 是 创建 了 一 个 默认 字符 编码 为 utfg、 名 字 为 wetaher 的 表格 。 
查看 这 个 表格 的 结构 ， 如 图 5-32 所 示 。 


[rysql> show columns from weather; 


1 char (24) 
1 char (6) 
1 char (20) 


1 chaz (20) 
1 char (20) 





[mysql> 
图 5-32 查询 表 结 构 


由 图 5-32 可 以 看 出 表格 中 的 项 基本 与 wuHanSpider 息 取 的 项 相同 。 至 于 多 出 来 的 那 一 项 
id， 是 作为 主键 存在 的 。MySQL 的 主键 是 不 可 重复 的 ， 而 wuHanSpider 爬 取 的 项 中 没有 符合 
这 个 条 件 的 ， 所 以 还 需要 另外 提供 一 个 主键 给 表格 更 加 合适 。 

创建 完 数据 库 和 表格 ， 下 一 步 创 建 一 个 普通 用 户 ， 并 给 普通 用 户 管理 数据 库 的 权限 。 在 
MySQL 环境 下 ， 执 行 命令 : 





执行 结果 如 图 5-33 所 示 。 





sql> INSERT INTO mysql.user (Host,User, Password) VALUES("$","crawlUSER",passwor + 
ld ("craw1123")); 
ery OK, 1 row affected, 3 warnings (0.00 sec) 


ql> INSERT INTO mysql.user(Host,User,Password) VALUES ("localhost", "crawlUSER" 
password ("eraw1123") ) ; 
ery OK, 1 row affected, 3 warnings (0.00 sec) 


ql> GRANT all privileges ON scrapyDB.* to craw1USER@all IDENTIFIED BY 'craw) 11 
lasts 
ery OX, 0 rows affected (0.00 sec) 

ql> GRANT all privileges ON scrapyDB.* to craw1USER@localhost IDENTIFIED BY ' 
[crawl123": 

ery OK, 0 rows affected (0.00 sec) 


ql> exit; 





图 5-33 ”创建 新 用 户 、 赋 予 管理 权限 
第 1 条 命令 创建 了 一 个 用 户 名 为 crawlUSER 的 远程 用 户 ， 该 用 户 只 能 远程 登录 ， 不 能 本 
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地 登录 。 第 2 od 令 创 建 了 一 个 用 户 名 为 crawlUSER 的 本 地 用 户 ， 该 用 户 只 能 本 地 登录 ， 不 
能 远程 登录 。 第 3~4 条 命令 则 赋予 了 crawlUSER 用 户 管理 scrapyDB 数据 库 的 所 有 权限 。 最 
后 退出 sean 至 此 ， 数 据 库 方面 的 配置 已 经 完成 ， 静 待 Scrapy 来 连接 了 。 

Python 的 标准 库 中 没有 直接 支持 MySQL 的 模块 。 在 Python 第 三 方 库 中 能 连接 MySQL 
的 不 少 ， 这 里 笔者 选择 使 用 最 广 的 MySQLdb 模块 。 

@ Linux 中 安装 MySQLdb 模块 


在 Linux 下 安装 MySQLdb 模块 ， 最 简单 的 方法 是 借助 Debian 庞大 的 软件 库 〈 可 以 说 ， 
只 要 不 是 私有 软件 ，Debian 软件 库 总 不 会 让 人 失望 )。 在 终端 下 执行 命令 : 
apt-get install python-mysqldb 





执行 结果 如 图 5-34 所 示 。 


BP king@debian: ~ 


root@debian:/home/king# apt-get install python-mysqldb 

正在 读 取 软件 包 列 完 

正在 分 析 软 件 包 的 

[ETER 

有 pychon-mysqldb 5 . 

python-mysqldb 被 设置 为 手动 安装 

升级 了 o 个 软件 包 ， 新 安装 了 0 个 软件 包 ， EMR 0 个 软件 包 ， 有 0 个 软件 包 未 被 升级 


Foot @debian: /home/king$ 





5-34 Linux 安装 MySQLdb 模块 
系统 已 经 安装 过 的 会 显示 安装 信息 ， 没 有 安装 的 会 自动 安装 。 当 然 也 可 以 使 用 pip 安 
© Windows 中 安装 MySQLdb 模块 


在 Windows 或 Mac OS 下 安装 第 三 方 模块 只 能 使 用 pip， 没 有 其 他 的 选项 。 打 开 
cmd.exe， 执 行 命令 : 


pip install MySQL-python 


执行 结果 如 图 5-35 所 示 。 


pip install MySQL-python 
QL—pyt hon 
Mysal- python-1 
1 45kB 2ØkB/s eta 0:00:04 
1 49D 20kD/s cta @:00:8 
1 53kB 2ØkB/s eta 0:00: 
1 57KB 22kB/s eta 8:00 
1 61kB 22kB/s eta 0:9 
65KB 18kE/s eta B 
kB 20kB/s eta 
1 73KB 91kB/s eta 
1 77kB 91kB/s et 
1 81kB 91kB/s e 
1 86KB 61kB/e 
1 98kB 35kB/ 
1 94kB 26KB 
1 98KB 23k 
3 182KB 2 
i 106KB | 
1 118k 





图 5-35 Windows 安装 MySQLdb 模块 
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这 里 只 需要 注意 大 小 写 即 可 。 安 装 完 毕 后 就 可 以 将 MySQLdb 模块 导入 使 用 了 。 

Python 模块 已 经 准备 完毕 ，MySQL 的 库 表 格 也 准备 完毕 ， 现 在 可 以 编辑 
pipelines2mysql.py 了 。 在 项 目 名 为 weaterh 的 Scrapy 项 目 中 的 pipelines.py 同 层 目录 下 ， 使 用 
文本 编辑 器 编写 pipelines2mysql.py， 编 辑 完毕 的 pipeliens2mysql.py 的 内 容 如 下 : 


第 1 行 指 定 了 扑 取 数据 的 字符 编码 ， 第 8~9 行 导 入 了 所 需 的 模块 。 第 20~31 行使 用 
MySQLdb 模块 将 数据 写 入 了 MySQL 数据 库 中 。 最 后 在 settings.py 中 将 pipelines2mysql.py 加 


144 








35% Scrapy MBER 





入 到 数据 处 理 数列 中 去 。 修 改 后 的 settings.py 内 容 如 下 : 





实际 上 就 是 把 pipelines2mysql 加 入 到 settings.py 的 ITEM_PIPELINES 项 的 字典 中 去 就 可 
以 了 。 
最 后 运行 scrapy MEH, AF MySQL 中 的 结果 ， 执 行 命令 : 





执行 结果 如 图 5-36 所 示 。 


145 


Python MEEK 


| bi.png | 37t~2st 1 西南 


1 bi.png | 34T~277 | ke 
1 bi.png | 377-28 1 无 持 
| bl.png | 36[~26T 1 无 持 
1 b4.png | 33T~26T 1 东南 
1 b7.png | 34T~26T 小 1 无 持 
| ba.png | 33T~25T 1 东南 
1 b7.png | 33t~26t 


1 b7.png | 31U~25U 


133 rows in set (0.00 sec) 





mysql> [] 





图 or prey 中 数据 

MySQL 中 显示 MySQLdb 模块 存储 数据 有 效 。 这 个 Scrapy 项 目 到 此 就 顺利 完成 了 。 

一 般 来 说 为 了 阅读 方便 ， 结 果 保 存 为 txt 就 可 以 了 。 如 果 疏 取 的 数据 不 多 ， 需 要 存 入 表 
格 备查 ， 那 可 以 保存 为 cvs 或 json 比较 方便 。 如 果 需 要 疏 取 的 数据 非常 大 ， 那 还 是 老 老 实 实 
考虑 用 MySQL 吧 。 专 业 的 软件 做 专业 的 事情 。 


5.5 Scrapy 把 申 实战 三 : 获取 代理 


上 节 中 的 息 虫 虽然 将 数据 保存 起 来 ， 但 还 是 略 有 瑕 羔 。 例 如 cityDate 中 显示 了 城市 ， 显 
示 了 日 期 ， 但 并 没有 显示 具体 的 年 月 日 。 如 果 数 据 比 较 少 ， 还 可 以 慢 慢 地 反 推 计算 ， 如 果 数 
据 多 了 ， 那 就 太 麻烦 了 。 这 就 涉及 了 疏 取 数据 后 的 处 理 ， 本 节 我 们 讲解 一 下 疏 取 数据 后 如 何 
处 理 数据 。 


5.5.1 项 目 准 备 

本 节 将 从 网 站 上 获取 免费 的 代理 服务 器 。 使 用 Scrapy 获取 代理 服务 器 后 ， 一 一 验证 哪些 
代理 服务 器 可 用 ， 最 终 将 可 用 的 代理 服务 器 保存 到 文件 。 

首先 要 做 的 是 找到 免费 代理 服务 器 的 来 源 。 浏 览 器 中 打开 百度 ， 搜 索 “ 免 费 代理 服务 
器 ”， 搜 索 结果 如 图 5-37 所 示 。 
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Bata antes 
© seis: Proxy 在 线 国外 在 线 代理 服务 全 Sanna 


RERE LATERE ERRA BMA HO OS HCI Epek ACHE 





单 代理 ip| 私 密 代 理 ip| 独 享 代理 | 独 享 代理 ip| 高 速 http 代 理 | 免 现代 理 ipl 
wwwkuaidaili com/ ~ Vi - 百度 快照 - 35 条 评价 


地 址 _qq 服务 p 有 
ARSPRIRSILASHR HARE. 代理 服务 器 地 址 为 主 ， 

有 代理 | 常年 提供 免费 代理 ip 、qq 代 理 ip 、httpip 代 理 地 址 、 国 内 ip 代 理 等 网 游 
加 速 代理 ip, 为 用 户 提供 最 优质 的 ip 


2H - 提问 时 间 i 
[专业 ] 管 案 :一 般 情 况 有 这 几 种 -1、 代 理 服务 器 软件 ,这 种 一 般 是 收费 的 .但 可 能 也 有 免费 版 ;2 、 
代理 ip 地 址 ,国内 外 的 很 多 ,这 种 属于 通过 第 三 方 抓 取 的 ,这 种 站 点 也 很 多 ,百度 
zhidao.baidu.com/link?... ~ - 
4 个 回答 2013-08-13 
3 个 回答 2016-04-11 


每 日 更 新 间 珊 HTTP 代 理 所 有 代理 均 为 56575 机 口 训 代理 ame: 国 兴 每 不 省 的 tp 长 代 
理 实时 更 新 ， a ee to aE 





图 5-37 搜索 免费 代理 服务 器 


先 在 www.proxy360.cn 中 获取 代理 服务 器 。 如 果 数 量 不 够 ， 可 以 在 www.xicidaili.com 中 
获取 代理 服务 器 。 

在 浏览 器 中 打开 这 两 个 站 点 ， 观 察 所 需 的 项 目 。 发 现 大 部 分 的 项 目 都 相同 ， 共 有 的 项 目 
有 服务 器 了 P、 服 务 器 端口 、 是 否 匿名 、 服 务 器 位 置 。xicidaili 站 点 中 独 有 的 项 有 服务 协议 。 
最 后 还 应 该 添加 获取 服务 器 的 来 源 站 点 。 知 道 了 这 些 内 容 ，items.py 文件 基本 已 经 出 来 了 。 


5.5.2 ”创建 编辑 Scrapy MER 


打开 Putty 连接 到 Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 并 根据 提示 依照 spider 基础 模 
版 创建 一 个 spider。 执 行 命令 : 





这 里 创建 了 一 个 名 为 getProxy 的 Scrapy 项 目 ， 并 创建 了 一 个 名 为 proxy360Spiderpy 的 
Spider 文件 。 


1 . 修改 items.py 
根据 前 面 的 分 析 ，items.py 应 该 包含 6 项 。items.py 文件 内 容 如 下 : 
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需要 几 项 ， 就 填 入 几 项 。 最 简 模式 就 是 只 要 代理 IP 和 端口 。 这 个 文件 没什么 好 解释 的 ， 
比较 简单 直 白 。 


2 . 修改 Spider 文件 proxy360Spiderpy 


先 把 proxy360Spider.py 文件 放 到 一 边 。 使 用 scrapy shell 命令 查看 一 下 连接 网 站 返回 的 结 
果 和 数据 ， 进 入 getProxy 项 目下 的 任意 目录 下 ， 执 行 命令 : 


© scrapy shell http: //www.proxy360.cn/Region/Ching 
执行 结果 如 图 5-38 所 示 。 





jtMiddleware, CookiesMiddieware, ChunkedTransferMiddleware, DownloaderStats 
2016-07-31 19:22:32+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 
ldleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 
are 

J2016-07-31 19:22:32+0800 [scrapy] INFO: Enabled item pipelines: GetproxyPipeline 
J2016-07-31 19:22:32+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
lo23 

2016-07-31 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
2016-07-31 [default] INFO: Spider opened 

2016-07-31 [default] DEBUG: Crawled (200) <GET nttp://www.proxy360 
.cn/Region/China> (referer: None) 


[s] Available Scrapy objects: 
crawler  <scrapy.crawler.Crawler object at 0x7fccei9£3910> 
i $ 


ng: Ece23ec750> 
<Spider ‘default’ at 0x7fcce0b8d150> 
Useful shortcuts: 
shelp() Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 





5-38 scrapy shell 
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从 response 的 返回 代码 可 以 看 出 request 请 求 正常 返回 。 再 查看 一 下 response 的 数据 内 
容 ， 执 行 命令 : 


执行 结果 如 图 5-39 所 示 。 


[> style="width: 60px;" class="tbBottomLine">\r\n \u603b\u7684\ ^ 
uebes\us206\r\n </span>\r\n <span style="width: 
xz" class="cbBottomLine">\r\n \uSsef\u7528\r\n 
</span>\z\n <span style="width:100px; text-align:center: 
Je"tbBottomLine">\r\n \u901f\uSea6\u6d4b\uabes\r\n 
</span>\z\n </div>\r\n\r\n\r\n  \r\n <div class="proxyli 
stitem" name="1ist_proxy_ip">\r\n <div style="float:left; display:blo 
ck; width: 630px;">\r\n <span class="tbBottomLine" style="width: 140px; 
">\z\n ERF RREN </span>\r\n <span 
c1ass="tbBottomLine" style="width: SOpx;">\r\n 3128\r\n 
</span>\r\n <span class="tbBottomLine " style="width Tpx;">\r\n 
\uged8\us3sf\r\n </span>\r\n pan class=" 
tbBottomLine " Style="wideh? 70px: ">\r\n \ude2d\usefa\r\n 
</span>\r\n <span class="tbBottomLine " style="width: 80px:">\r\; 
09\u670805\ueSeS\z\n </span>\r\n <span cli 
J-mtbBottomline " style="width: 80px:">\r\n 3.44 (70\u7968) \r\n 
</span>\r\n <span class="tbBottomLine " style="width: 60px:">\r 
^a 3.44\r\n </span>\r\n <span clase="tbBott 
jomiine style="width: 30px;">\r\n 24\us929\r\n </span> 
\z\n </div>\r\n <div style="width:100px; float:left;">\r\n 
<div id="ct100_ContentPlaceHolderi_repProxyList_ctl01_RatingSpee 
Ja" ticle="3.44265714285714">\r\n\t\t<input type="hidden" name="ctl00SContentPlac 
JeHolderiSrepProxyList$ct101$RatingSpeed_RatingExtender_ClientState” id="ctl00_Co 
IntentPlaceHolderi repProxyList ctl0l RatingSpeed RatingExtender ClientState" val ~ 





图 5-39 response 数据 


返回 的 数据 中 含有 代理 服务 器 (难道 返回 代码 为 200 时 ， 还 有 返回 数据 不 含 代理 服务 器 
的 吗 ? 这 个 还 真有 ) 。 测 试 一 下 如 何 使 用 选择 器 在 response 中 的 得 到 所 需 的 数据 。 在 浏览 器 
中 打开 http://www.proxy360.cn/Region/China， 在 网 页 的 任意 空白 处 单 击 右键 ， 选 择 “ 查 看 框 
架 源 代码 ”， 打 开 页 面 的 源 代码 网 页 ， 如 图 5-40 所 示 。 





© > Œ Dview-sourcewww.proxy360.cn/Region/China 





应 用 O 从 Firefox 号 和 IBS G HEBRE Y SEES Y wie O study 





165 

166 <div class="proxylistitem" name=" list_proxy_ip"> 
167 <div style="float:left; display:block; width: 630px; "> 
168 <span class="thBottonLine” style="width: 140pe;"> 
169 61. 185. 219. 126 

170 </span> 

71 <span class="tbBottamLine” style="width:50px; "> 
172 3128 

173 </span> 

174 <span class="thBottomLine “ style="width: T0px:"> 
175 aE 

176 </span> 

177 <span class="thBottonLine ” style="width: 70pe:"> 
178 中 国 

179 </span> 

180 <span class="tbBottomLine " style="width: 80px;"> 
181 098058 

182 </span> 

183 <span class="tbBottomLine “ style="width: 80px;"> 
184 3.36(22 票 ) 

185 </span> 

186 <span class="thBottonLine " style="width: 60px:"> 
187 3.36 

188 </span> 

189 <span class="tbBottomLine ” style="width: 30px;"> 
190 2 天 

191 </spar> 

192 </div> 

193 <div style="width: 100px; float: left;"> 

194 <div id=" ct100 Cont entPlaceHolder!_repProxyList2_ct101_ Rat: 





5-40 ”页面 源 代码 
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观察 一 下 ， 似 乎 所 有 的 数据 块 都 是 以 <div class="proxylistitem" name="list_proxy_ip"> 这 个 
tag 开头 的 。 在 scrapy shell 中 测试 一 下 ， 回 到 scrapy shell 中 ， 执 行 命令 : 





执行 结果 如 图 5-41 所 示 。 





In [9]: subSelector = response.xpath('//div(@class="proxylistitem” and @name="1i + 
st_proxy_ip"] ') 

: subSelector.xpath span[1]/text () ') .extract () [0] 

2 unNzEN 58.222.254.11\rvnE 一 3， 


: subSelector.xpath('. 人 extract () [0] 
3 u'\r\n 28\r\n 


: subSelector.xpath(*.//span[3}/text ()*) extract () [0] 
i u'\r\n \u9ad8\uS33f\r\n 


: subSelector.xpath('.//span[4]/text()').extract() (01 
:out\r\n \ude2d\us6fd\r\n 





图 5-41 proxy360Spider 测试 选择 器 


Pe =] 所 得 数据 左右 两 侧 都 有 很 多 的 空格 。 


现在 如 何 用 选择 器 从 response 中 获取 所 需 数据 的 方法 也 出 来 了 ， 接 下 来 可 以 开始 编写 
Spider 文件 proxy360Spider.py. proxy360Spider.py 的 内 容 如 下 : 
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在 http:/www.proxy360.cn/Region/China 页 面 中 并 没有 显示 服务 器 使 用 的 协议 。 一 般 都 是 
HTTP 协议 ， 所 以 item['protocol] 统 一 设置 成 了 HTTP。 而 数据 来 源 都 是 proxy360 网 站 ， 
item['source'] 都 设置 成 了 proxy360。 


3 . 修改 pipelines.py， 处 理 Spider 的 结果 
这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 





在 13~18 行 中 ， 写 入 文件 时 除了 使 用 encode(utfg) 修 改 字符 编码 以 外 还 使 用 了 strip() 函 数 
去 除 所 得 数据 左右 两 边 的 空格 。 


4 . 修改 settings.py , 决定 由 哪个 文件 来 处 理 获取 的 数据 


settings.py 稍 作 修改 即 可 。 将 pipelines.py 添加 到 ITEM_PIPELINES 中 去 就 能 解决 问题 。 
settings.sp 文件 内 容 如 下 : 
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最 后 回 到 项 目 getProxy 目录 下 ， 执 行 命令 : 





执行 结果 如 图 5-42 所 示 。 























sponse_received_count’ 
‘scheduler/dequeued": 8, 
‘scheduler/dequeued/menory': 8, | 
'scheduler/enqueued': 8, 

'scheduler/enqueued/menory': 8, 

'start_time': datetime.datetime(2016, 7, 31, 12, 14, 51, 316238)} 
[2016-07-31 20:14:53+0800 (proxy360Spider] INFO: Spider closed (finished) 
Iking@debian:~/code/crawler/scrapyProject/getProxy$ 1s 

jaetProxy scrapy.cfa proxy.txt 


Ts we -1 proxy.txt 
ieing@debian e e T neon more proxy.txt 














|220.130.10.171 3128 HITP $E é proxy360 
j59.127.104.238 3128 HTTP 高 医 © proxy360 
|163.29.225.250 8080 HTTP 高 医 名 : proxy360 
|210.69.23.212 80 HTTP ”透明 g proxy360 
60.250.139.213 3128 HTTP SE 名: proxy360 
|stud. th3h.tpe.edu.tw 3128 ”HITP ”高 匿 台湾 proxy360 
61.57.155.236 ate OE G Proxy360 
leo.251.221.98 3128. mte EE 人 台 : Proxy360 
|218.210.199.254 20 BTTP ”透明 g: proxy360 
|122.146.64.244 3128 mre SE OG: Proxy360 
[59.120.104.56 e080 HTTP 透明 人 台湾。 proxy360 
61.63.12.188 3128 HTTP == = Proxy360 








5-42 scrapy crawl proxy360Spider 
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得 到 的 结果 没什么 问题 。 可 花 了 这 么 长 时 间 最 后 只 得 到 了 144 个 数据 的 结果 ， 性 价 比 也 
太 低 了 点 吧 。 不 过 没关系 ， 再 给 它 一 个 Spider 就 可 以 了 ， 一 个 站 点 的 数据 不 够 就 再 加 一 个 站 
点 。 如 果 还 不 够 ， 那 就 继续 增加 站 点 吧 。 


5.5.3 多 个 Spider 


按照 一 个 Spider 的 思路 ， 得 到 的 proxy 数据 不 够 多 ， 则 可 以 在 www.xicidaili.com 中 获取 
代理 补足 。 到 项 目 getProxy 目录 下 ， 执 行 命令 : 





创建 一 个 名 为 xiciSpiderpy 的 Spider 文件 。items.py 无 须 修改 了 ， 直 接 对 xiciSpider.py 做 
修改 就 可 以 了 。 我 们 还 是 先 用 scrapy shell 命令 来 确定 如 何 获 取 数 据 ， 执 行 命令 : 


得 到 的 结果 如 图 5-43 所 示 。 





023 
2016-07-31 20:28:10+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
2016-07-31 20:28:10+0800 [xiciSpider] INFO: Spider opened 

2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Retrying <GET http://www.xicidaili. 


2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Gave up retrying <GET http://www.xi 
lcidaili.com/nn/2> (failed 3 times): 500 Internal Server Error 
2016-07-31 20:28:10+0800 [xiciSpider] DEBUG: Crawled (500) <GET nttp://www.xicid 


crawler  <scrapy.crawler.Crawler object at 0x7£5b39055910> 


ga. SE Object at 0x7fSb39a4e750> 
der 'xiciSpider' at 0x7f5b381ef190> 


Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 


5-43 scrapy shell 


这 里 发 现 一 个 问题 。respnose 返回 的 代码 是 500， 要 知道 返回 码 是 200 才 是 正常 返回 。 在 
浏览 器 中 打开 http:/www.xicidaili.com/nn/2 是 正常 显示 的 ， 而 该 网 页 并 不 需要 登录 ， 那 就 是 
说 并 不 涉及 cookie. H scrapy shell 请 求 页 面 和 用 浏览 器 请 求 页 面 用 的 是 同一 了 P。 也 不 存在 IP 
封锁 的 问题 。 剩 下 的 就 只 有 headers 中 User-Agent 的 问题 了 。 除 去 所 有 的 不 可 能 ， 最 后 那 一 
选项 大 致 就 是 正确 答案 。 

在 Scrapy 中 的 确 是 有 默认 的 headers， 但 这 个 headers 与 浏览 器 的 headers 是 有 区 别 的 。 
有 的 网 站 会 检查 headers， 如 果 是 浏览 器 的 headers 网 站 则 予以 通过 ， 而 机 器 人 或 者 说 疏 虫 的 
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headers 则 拒绝 访问 。 所 以 在 这 里 只 需要 给 scrapy 一 个 浏览 器 的 headers 就 可 以 解决 问题 了 。 
修改 settings.py 文件 内 容 如 下 : 








只 需要 在 settings.py 里 添加 一 个 USER_AGENT 项 就 可 以 了 。 如 果 可 以 ， 尽 可 能 使 用 本 
机 浏览 器 的 headers。 这 里 使 用 的 是 随意 选取 的 一 个 headers， 好 在 该 网 站 没有 根据 不 同 的 
headers 返回 不 同 的 内 容 。 

好 了 ， 再 回 到 getProxy 项 目的 目录 下 ， 使 用 scrapy shell 测试 如 何 获取 有 效 数 据 。 执 行 命 


令 : 
| Se e 
得 到 的 结果 如 图 5-44 所 示 。 
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Middleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats 

2016-07-31 20:52:16+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid 

Idleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddlew 

jare 

2016-07-31 20:52:16+0800 [scrapy] INFO: Enabled item pipelines: GetproxyPipeline 
[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 


[scrapy] DEBUG: Web service listening on 127.0.0.1:6080 

[xiciSpider] INFO: Spider opened 

[xiciSpider] DEBUG: Crawled (200) <GET http://www.xicid 
Jaili.com/nn/2> (referer: None) 


[s] Available Scrapy objects: 
crawler  <scrapy.crawler.Crawler object at 0x7£212465a910> 


settings <scrapy.settings.settangs object at 0x7£2125053750> 
spider <KicispiderSpider 'xiciSpider' at 0x7£21237£4190> 

[s] Useful shortcuts: 

[s] shelp() Shell help (print this help) 
fetch(req_or_url) Fetch request (or URL) and update local objects 
view(response) View response in a browser 





5-44 ”修改 headers 后 scrapy shell 


如 图 5-44 Pras, response 的 返回 码 为 200， 现 在 没 问题 了 。 浏 览 器 中 打开 
http:/wwwxicidaili.commnn/2， 空 白 处 单 击 右键 ， 选 择 “查看 页 面 源 代 码 ”， 打 开 了 页 面 的 源 
代码 网 页 ， 发 现 所 需 数据 的 块 都 是 以 <tr class="odd"> 或 者 <tr class=""> 开 头 的 。 在 scrapy shell 
中 执行 命令 : 





执行 结果 如 图 5-45 所 示 。 


in [6]: subSelector = response.xpath('//tr[@class="") |//tr[@class="odd"]") 


: subSelector[0].xpath('.//td[2]/text()") extract () [0] 
i u'111.155.124.70" 


: subSelector[0].xpath('.//td[3]/text()*).extract() [0] 
u'8123' 


subSelector[0].xpath('.//td[4]/a/text()') -extract() [0] 
: ut\uS317\udeac' 


In [10]: subSelector[0].xpath('.//td[5]/text()') extract () [0] 
jout [10]: u'\u9ad8\u533f' 


rn [11]: subSelector[0].xpath('.//td[6]/text()') .extract() [0] 
out [22]: u'HITP* 





5-45 xiciSpider 测试 选择 器 
现在 xiciSpiderpy 怎么 编写 已 经 一 目 了 然 了 。xiciSpiderpy 的 内 容 如 下 : 
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回 到 项 目 getProxy 目录 下 ， 执 行 命令 : 


执行 结果 如 图 5-46 所 示 。 
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2016-07-31 22:04:42+0800 [xiciSpider] INFO: Dumping Scrapy stats: 
{'downloader/request_bytes': 36972, 
‘downloader/request_count': 80, 


"downloader/request_method_count/GET': 80, 
‘downloader/response_bytes': 649788, 
"downloader/response_count': 80, 
"downloader/response_status_count/200': 80, 

'finish reason': ‘finished', 

‘finish vime': datetime.datetime (2016, 7, 31, 14, 4, 42, 977442), 

'item scraped _count': 8000, 

"1og_count/DEBUG': 8082, 

*log_count/INFO': 8, 

'response_received_count': 80, 

'scheduler/dequeued': 80, 

'scheduler/dequeued/memory': 80, 

'scheduler/enqueued': 80, 

'scheduler/enqueued/memory': 80, 

'start_time': datetime.datetime(2016, 7, 31, 14, 3, 20, 377657)} 
2016-07-31 22:04:42+0800 [xiciSpider] INFO: Spider closed (finished) 
king@debian:~/code/crawler/scrapyProject/getProxy$ 1s 
getProxy scrapy.cfg proxy.txt 

paidebiani—/ende/crawler/scrapyProject/getProxy$ wc -l proxy. txt 


:~/code/crawler/scrapyProject/getProxy$s |] 





图 5-46 scrapy crawl xiciSpider 


xicidaili.com 同一 IP, AAA AAKER, B-LAKARSRA BW 全 。 万 一 被 封锁 





了 ， 那 就 重启 路 由 器 或 者 光 猫 换个 IP 吧 。 


从 文件 保存 的 记录 数字 来 看 ， 应 该 是 没 问题 的 。 但 这 么 多 的 记录 ,或 者 说 这 么 多 的 代理 
服务 器 有 多 少 是 可 用 的 呢 ? 这 就 是 下 一 小 节 的 问题 了 。 


5.5.4 处理 Spider 数据 


如 何 来 验证 上 一 小 节 中 已 经 获取 到 的 代理 服务 器 地 址 ， 最 简单 的 方法 当然 是 在 pipelines 
文件 里 直接 修改 。 但 不 幸 的 是 验证 一 个 代理 服务 器 是 和 否 有 效 所 需 的 时 间 和 将 一 行 记录 写 入 文 
件 的 时 间 相 差 得 太 远 了 。 前 者 所 需 的 时 间 是 以 秒 计算 的 ， 后 者 是 以 微 秒 计算 。 这 样 一 来 还 不 
如 先 将 所 有 的 代理 服务 器 保存 到 文件 ， 然 后 另外 写 一 个 Python 程序 来 验证 代理 。 

进入 getProxy 项 目的 目录 下 ， 创 建 Python 验证 程序 。 执 行 命令 : 





代理 服务 器 验证 程序 testProxy.py 的 内 容 如 下 : 
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执行 命令 : 
[| 


利用 多 线程 来 验证 来 源 文件 proxytxt 里 的 代理 。 经 过 验证 ， 有 181 个 代理 可 以 使 用 。 将 
selfthreads 设置 为 10， 使 用 10 个 进程 并 发 ， 大 概 需要 1 分 钟 左右 ， 速 度 还 可 以 接受 。 这 个 
速度 已 经 很 快 了 ， 没 有 必要 将 selfthreads 设置 得 太 大 ， 以 免 占 用 太 多 的 系统 资源 。 最 终 得 到 
文件 alive.txt。 这 个 程序 还 比较 简陋 ， 有 很 大 的 改进 空间 。 例 如 ， 同 一 网 站 下 疏 取 的 代理 服务 
器 也 许 不 会 有 重复 的 情况 ， 但 多 个 网 站 有 息 取 的 代理 服务 器 就 有 可 能 重复 。 这 种 情况 可 以 在 程 
序 内 加 上 一 个 去 重复 的 函数 。 
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上 节 中 得 到 了 一 个 经 过 验证 的 proxy 文件 。 本 节 将 使 用 得 到 的 代理 来 仆 取 网 站 内 容 ， 目 
标 站 点 就 定 为 一 个 笑话 网 站 粮 事 百科 。 


5.6.1 目标 分 析 

粮 事 百科 这 个 站 点 类 似 于 上 节 的 “ 西 刺 代理 ”。 它 必须 要 指定 一 个 浏览 器 的 headers 才 
能 返回 正确 的 数据 。 另 外 上 节 中 的 getProxy 项 目 中 已 经 获取 了 一 些 可 使 用 的 代理 服务 器 ， 浪 
费 是 可 耻 的 。 本 节 将 使 用 代理 来 怎 取 粮 事 百科 中 的 笑话 。 

在 浏览 器 中 打开 粮 事 百科 网 站 ， 如 图 5-47 所 示 。 
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D www.qiushibaike.com/hot/page/3/?s=4900120 


3476 FS -35 Re 
—— 





图 5-47 数据 来 源 站 点 
从 图 5-47 中 可 以 看 出 目标 数据 来 源 的 网 址 为 http://www.qiushibaike.com/hot/page/3/?s= 
4900120， 这 里 的 ?s=4900120 应 该 只 是 从 Cookies 里 提取 的 用 户 标识 。 去 除 这 个 尾巴 ， 用 浏览 
器 打开 http://www.qiushibaike.com/hot/page/3/。 页 面 完全 一 样 ， 没 有 任何 影响 。 
可 以 获取 的 项 有 发 布 者 名 字 、 笑 话 内 容 、 笑 话 图 片 〈 如 果 有 图 片 就 下 载 ) 、 单 击 好 笑 的 
次 数 、 谈 论 的 次 数 。items.py 就 是 这 些 了 。 


5.6.2 ”创建 编辑 Scrapy Me AR 
HEA Scrapy 的 工作 目录 ， 创 建 项 目 名 为 qiushi 的 Scrapy 项 目 ， 通 过 Spider 模版 创建 
qiushiSpiderpy 文件 。 执 行 命令 : 





首先 要 编辑 的 还 是 items.py, items.py 文件 的 内 容 如 下 : 
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不 管 后 面 怎么 变化 ， 需 要 添加 什么 功能 ， 在 items.py 这 个 文件 上 是 没有 任何 区 别 的 。 在 
上 节 的 getProxy 项 目 中 ， 为 了 获取 “ 西 刺 代理 ”站 点 上 的 代理 服务 器 ， 在 settings.py 中 添加 
了 USER_AGENT 项 ， 给 Scrapy 添加 了 一 个 浏览 器 的 headers。 本 节 的 Scrapy 项 目 不 仅 需要 
添加 浏览 器 的 headers， 还 要 使 用 proxy， 这 就 涉及 了 Scrapy 中 间 件 。 

Scrapy 项 目 本 身 有 很 多 的 中 间 件 。 这 些 中 间 件 设置 了 很 多 的 环境 。 一 般 最 常见 的 中 间 件 
就 是 下 载 器 中 间 件 。 本 节 项 目 所 需 添加 headers， 使 用 proxy 都 是 在 这 个 中 间 件 中 修改 。 





5.6.3 Scrapy 项 目 中 间 件 一 一 添加 headers 


在 Scrapy 项 目 中 ， 掌 管 proxy 的 中 间 件 是 scrapy.contrib.downloadermiddleware.useragent. 
UserAgentMiddleware。 直 接 修改 这 个 中 间 件 ， 不 是 不 可 以 ， 不 过 为 了 一 个 项 目 就 去 修改 整个 
环境 变量 ， 也 太 小 题 大 做 了 。 我 们 完全 可 以 自己 写 个 中 间 件 ， 让 它 运行 ， 然 后 将 Scrapy 默认 
的 中 间 件 关闭 掉 就 可 以 了 。 

先进 入 qiushi 项 目下 的 settgings.py 同 层 目 录 ， 创 建文 件 夹 middlewares， 在 middlewares 
目录 下 创建 _init_.py 和 customMiddlewares.py XF, HP init__.py 的 作用 是 将 整个 
middlewares 目录 当成 一 个 模块 使 用 。customMiddlewares.py 就 是 自 定 义 的 中 间 件 。 
customMiddlewares.py 的 内 容 如 下 : 
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修改 settings.py， 将 系统 默认 的 中 间 件 scrapy.contrib.downloadermiddleware.useragent. 
UserAgentMiddleware 关闭 ， 用 自己 创建 的 中 间 件 qiushi.middlewares.customMiddlewares. 
CustomUserAgent 代替 。Settings.py 内 容 如 下 : 


因为 改 用 了 自 定义 的 中 间 件 取代 Scrapy 的 中 间 件 ， 所 以 需要 将 Scrapy 的 中 间 件 改 为 
None， 将 其 关闭 。 
编辑 pipelines.py 文件 ，pipelines.py 文件 内 容 如 下 : 








A 5 Scrapy Jed 


最 后 将 QiushiPipeline 添加 到 settings.py 中 去 ， 修 改 后 的 settings.py 内 容 如 下 : 





网 络 礁 虫 实 战 





所 有 文件 准备 完毕 了 ， 回 到 qiushi 项 目下 ， 执 行 命令 : 





结果 如 图 5-48 所 示 。 


('downloader/request_bytes': 30250, 
‘downloader/request_count': 65, 
"downloader/request_method_count/GET': 65, 
‘downloader/response_bytes': 342865, 
‘downloader/response_count': 65, 
‘downloader/response_status_count/200': 22, 
‘downloader/response_status_count/301': 1, 
*downloader/response_status_count/S03': 42, 
‘finish_reason': ‘finished', 
‘finish time': datetime.datetime(2016, 8, 1, 9, 6, 20, 316252), 
‘item_scraped_count': 363, 
‘1og_count/DEBUG': 446, 
*1og_count/ERROR': 77, 
‘1og_count/INFO': 7, 
‘response_received_count': 30, 
scheduler/dequeued': 65, 
scheduler/dequeued/memory': 65, 
‘scheduler/enqueued': 65, 
‘scheduler/enqueued/memory': 65, 
‘start_time’: datetime.datetime(2016, 8, 1, 9, 5, 59, 392965)} 
2016-08-01 17:06:20+0800 [qiushiSpider] INFO: Spider closed (finished) 
= x/scrapyProject/qiushi$ 1s 
qiushi scrapy.cfg 
ELE D3 


ode/crawier/scrapyProject/qiushi$ [| 





图 5-48 数据 保存 结果 
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从 最 后 运行 结果 看 来 ， 已 达到 预期 目标 ， 获 取 了 数据 。 自 定义 的 中 间 件 成 功 运行 。 





5.6.4 Scrapy 项 目 中 间 件 一 一 添加 proxy 

上 一 小 节 中 使 用 自 定义 的 中 间 件 给 Scrapy 添加 了 浏览 器 的 headers。 本 小 节 将 使 用 自 定 
义 的 中 间 件 给 Scrapy 添加 一 个 proxy。 

Scrapy 默认 环境 下 ，proxy 的 设置 是 由 中 间 件 scrapy.contrib.downloadermiddleware. 
httpproxy.HttpProxyMiddleware 控制 的 。 参 照 上 一 小 节 的 方法 ， 还 是 自 定义 一 个 中 间 件 。 因 为 
只 使 用 单独 一 个 代理 ， 就 不 再 添加 新 的 文件 了 。 直 接 在 middlewares.customMiddlewares 中 添 
加 一 个 类 就 可 以 了 。 

既然 是 使 用 proxy， 那 得 先 找到 一 个 可 使 用 proxy， 在 上 个 Scrapy 项 目 getProxy 中 已 经 
找到 很 多 了 ， 我 们 在 getProxy 项 目的 最 终 文档 usefulProxy.txt 中 随意 挑选 一 个 即 可 。 例 如 : 
114.33.202.73:8118。 

修改 自 定义 的 中 间 件 文档 customMiddlewares.py。 修 改 完毕 后 的 customMiddlewares.py 内 
容 如 下 : 





接 下 来 再 修改 settingspy 文件 ， 将 新 添加 的 中 间 件 CustomProxy 添加 到 
DOWNLOADER_MIDDLEWARES 中 去 。 这 里 与 之 前 的 CustomUserAgent 不 同 的 是 ， 
CustomUserAgent 需要 禁止 系统 的 UserAgentMiddleware， 而 CustomProxy 则 需要 在 系统 的 
HttpProxyMiddleware 之 前 执行 。 修 改 完毕 的 settings.py P AU F: 
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最 后 回 到 Scrapy 项 目 qiushi 的 目录 下 ， 执 行 命令 : 
scrapy crawl qiushispider 
执行 的 结果 如 图 5-49 所 示 。 
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= fol 

king@debian:~/code/crawler/scrapyProject/qiushi$ scrapy crawl qiushiSpider 
2016-08-01 22:57:01+0800 [scrapy] INFO: Scrapy 0.24.2 started (bot: qiushi) 
2016-08-01 22:57:01+0800 [scrapy] INFO: Optional features available: ssl, httpil 
r boto, django 

2016-08-01 22:57:01+0800 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE' 
: 'qiushi.spiders', 'SPIDER MODULES': ['qiushi.spiders'], 'BOT_NAME': 'qiushi'} 
2016-08-01 22:57:01+0800 [scrapy] INFO: Enabled extensions: LogStats, TelnetCons 
lole, CloseSpider, WebService, CoreStats, SpiderState 

2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled downloader middlewares: CustomPr 
oxy, HttpAuthMiddleware, DownloadTimeoutMiddleware, RetFyMaare 

are, Defa adersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware| 
[l RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, Downloaderst 
jats 

2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled spider middlewares: HttpErrorMid| 
laleware, OffsiteMiddleware, RefererMiddleware, UrllengthMiddleware, DepthMiddlew 
jare 

|2016-08-01 22:57:02+0800 [scrapy] INFO: Enabled item pipelines: QiushiPipeline 
2016-08-01 22:57:02+0800 [qiushiSpider] INFO: Spider opened 

2016-08-01 22:57:02+0800 [qiushiSpider] INFO: Crawled 0 pages (at 0 pages/min), 
scraped 0 items (at 0 items/min) 

2016-08-01 22:57:02+0800 [scrapy] DEBUG: Telnet console listening on 127.0.0,1:6 
023 

2016-08-01 22:57:02+0800 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080 
“C2016-08-01 22:57:04+0800 [scrapy] INFO: Received SIGINT, shutting down gracefu ~ 


图 5-49 运行 中 间 件 
从 图 5-49 中 可 以 看 出 自 定 义 的 两 个 中 间 件 都 已 经 运行 了 。 
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对 于 一 般 用 户 而 言 ， 网 络 爬 虫 是 个 好 工具 ， 它 可 以 方便 地 从 网 站 上 获取 自己 想 要 的 信 
息 。 可 对 于 网 站 而 言 ， 网 络 爬 虫 占用 了 太 多 的 资源 ， 也 没 可 能 从 这 些 爬 虫 获取 点 击 量 ， 增 加 
广告 收入 。 据 有 关 调 查 研究 证 明 ， 网 络 上 超过 60% 以 上 的 访问 量 都 是 爬虫 造成 的 ， 也 难怪 网 
站 方 对 网 络 爬 虫 恨 之 入 骨 ，“ 杀 ”之 而 后 快 了 。 

网 站 方 采取 种 种 措施 拒绝 网 络 爬 虫 的 访问 ， 而 网 络 高 手 们 则 毫 不 示弱 ， 改 进 网 络 爬 虫 ， 
赋予 它 更 强 的 功能 、 更 快 的 速度 ， 以 及 更 隐蔽 的 手段 。 在 这 场 朴 虫 与 反 疏 虫 的 战争 中 ， 双 方 
的 比分 交替 领先 ， 最 终 谁 会 赢得 胜利 ， 大 家 将 拭目以待 。 


5.7.1 创建 一 般 怜 虫 

我 们 先 写 一 个 小 朴 虫 程序 ， 假 设 网 站 方 的 各 种 限制 ， 然 后 再 来 看 看 如 何 破解 网 站 方 的 限 
制 ， 让 大 家 自由 地 使 用 扑 虫 工具 。 网 站 限制 的 仆 忠 肯定 不 包括 我 们 这 种 只 有 几 次 访问 的 候 
虫 。 一 般 来 说 ， 小 于 100 次 访问 的 聆 虫 都 无 须 为 此 担心 ， 这 个 的 爬虫 纯粹 是 做 演示 。 

VANE HR SE TG Re ON il, EH Scrapy 疏 虫 来 朴 取 最 近 更 新 的 美剧 ， 来 源 网 页 是 
http://www.meijutt.com/new100.html。 进 入 Scrapy 工作 目录 ， 创 建 meiju100 项 目 。 执 行 命令 : 
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执行 的 结果 如 图 5-50 所 示 。 


You can start your first spider with: 

cd meijui00 

scrapy genspider example example.com 
king@debian:~/code/crawler/scrapyProject$ cd meijul00 
king@debian:~/code/crawler/scrapyProject/meijul00$ scrapy genspider meijul00Spid 
ler meijutt.com 
reated spider ‘meijul00Spider' using template ‘basic’ in module: 

meijul00.spiders.meijul00Spider 

|king@debian:~/code/crawler/scrapyProject/meijul00$ tree ./meijui00/ 
-/meiju100/ 

—init py 

init_— .pyc 

Items.py 

pipelines.py 

settings.py 

settings.pyc 


init .pyc 
meijul00Spider.py 


1 directory, 9 files 
king@debian:~/code/crawler/scrapyProject/meijul00$ [] 





图 5-50 tree meijul00 项 目 
修改 后 的 items.py 的 内 容 如 下 : 





修改 后 的 meiju100Spider.py 内 容 如 下 : 
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修改 后 的 pipelines.py 内 容 如 下 : 
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修改 后 的 settings.py 内 容 如 下 : 





这 个 美剧 爬虫 已 经 修改 完毕 了 。 回 到 meiju 项 目的 主 目录 下 执行 命令 : 





执行 结果 如 图 5-51 所 示 。 


3s ABC-Family 2016-7-27 


2016-7-27 
终 Netflix 2016-7-27 
My-Lifetime 2016-7-27 


2016-7-26 
2016-7-26 
2016-7-25 
2016-7-25 
unknow 2016-7-25 
king@debian:~/code/crawler/scrapyProject/meiju100$ [] 





图 5-51 meiju 项 目 结果 
MAZITI. FARRE RASERER. 


5.7.2 ”封锁 间隔 时 间 破 解 

Scrapy 在 两 次 请 求 之 间 的 时 间 设 置 是 DOWNLOAD DELAY. WRAZ fe Qe A 
素 ， 这 个 值 当然 是 越 小 越 好 。 如 果 把 DOWNLOAD DELAY 设置 成 了 0.1， 也 就 是 每 0.1 秒 
向 网 站 请 求 一 次 网 页 。 网 站 管理 员 只 要 不 瞎 ， 稍 微 过 滤 一 下 日 志 ， 就 会 为 用 户 如 此 侮辱 他 的 
智商 而 愤恨 不 已 。 

如 果 对 疏 虫 的 结果 需求 不 是 那么 急 ， 也 希望 “ 打 枪 的 不 要 ， 悄 悄 地 进 村 ” 那 还 是 把 这 一 
项 的 值 设 置 得 稍微 大 一 点 吧 。 在 settings.py 的 尾部 追加 这 一 项 即 可 。 

DOWNLOAD DELAY = 5 


5.7.3 封锁 Cookies 破解 


众所周知 ， 网 站 是 通过 Cookies 来 确定 用 户 身份 的 。Scrapy ME REER AE HEH E 
个 Cookies 发 送 请 求 。 这 种 做 法 和 把 DOWNLOAD_DELAY 设置 成 0.1 没什么 区 别 。 

不 过 要 破解 这 种 原理 的 反 息 虫 也 很 简单 ， 直 接 禁 用 Cookies 就 可 以 了 。 在 settings.py 的 
尾部 追加 一 项 即 可 。 

COOKIES_ENABLED = False 


5.7.4 封锁 user-agent 破解 

user-agent 是 浏览 器 的 身份 标识 。 网 站 就 是 通过 user-agent 来 确定 浏览 器 类 型 的 。 有 很 多 
的 网 站 都 会 拒绝 不 符合 一 定 标准 的 user-agent 请 求 网 页 。 在 前 面 的 Scrapy 项 目 中 曾 冒 充 浏 览 
器 访问 网 站 。 但 如 果 网 站 将 频繁 访问 网 站 的 user-agent 作为 爬虫 的 标志 ， 然 后 将 其 拉 入 黑 名 
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单 又 该 怎么 办 呢 ? 

这 个 也 很 简单 。 可 以 准备 一 大 堆 的 user-agent， 然 后 随机 挑选 一 个 使 用 ， 使 用 一 次 就 更 
换 ， 这 样 不 就 解决 了 。 

首先 还 是 在 meiju 项 目下 settings.py 的 同 级 目录 创建 middlewares 目录 ， 进 入 
middlewares 目录 ,创建 _init _.py， 将 middlewares 目录 变 成 一 个 Python 模块 。 创 建 资源 文 
件 resource.py 和 中 间 件 文件 customUserAgent.py。 

将 多 个 浏览 器 的 user-agent 放 入 资源 文件 resource.py 中 加 入 列表 待 用 。 修 改 后 的 
resource.py 文件 内 容 如 下 : 
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修改 customUserAgent.py， 将 资源 文件 中 的 user-agent 随机 选择 一 个 出 来 ， 作 为 Scrapy 
的 useragent。 修 改 后 的 customUserAgent.py 内 容 如 下 : 


最 后 修改 settings.py 文件 ， 将 RandomUserAgent 加 入 DOWNLOADER_MIDDLEWARES 
项 中 。 修 改 后 的 settings.py 文件 内 容 如 下 : 





Python MERKAR 





修改 到 这 一 步 ， 使 用 Scrapy 会 随机 调用 一 个 user-agent， 稍 微小 心 一 点 ，Scrapy 再 也 不 
SAA user-agent 而 被 网 站 拒绝 服务 了 。 


5.7.5 封锁 IP 破解 


在 反扑 虫 中 ， 最 容易 被 发 觉 的 实际 上 是 IP。 同 一 IP 短 时 间 内 访问 同一 站 点 ， 如 果 数 目 
少 ， 管 理 员 可 能 会 以 为 是 网 吧 或 者 大 型 的 局 域 网 在 访问 而 放 你 一 马 。 数 目 多 了 ， 那 肯定 是 扑 
虫 了 。 个 人 用 户 可 以 用 重启 猫 的 方法 换 IP， 专 线 用 户 总 不 能 让 ISP 给 换 专线 吧 ， 因 此 最 方便 
的 方法 就 是 使 用 代理 了 。 

之 前 的 项 目 中 曾 使 用 过 代理 爬 取 网 站 ， 本 节 将 准备 一 个 代理 池 ， 从 中 随机 地 选取 一 个 代 
理 使 用 。 疏 取 一 次 ， 选 取 一 个 不 同 的 代理 。 进 入 之 前 创建 的 middlewares 目录 中 ， 在 资源 文 
件 resource.py 中 加 入 一 个 IP 池 ， 也 就 是 一 个 代理 服务 器 的 列表 。 在 前 面 的 项 目 中 已 经 获取 
很 多 免费 的 代理 服务 器 了 ， 请 随意 取 用 ， 不 用 客气 。 

修改 后 的 resource.py 的 内 容 如 下 : 
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创建 一 个 中 间 件 customProxy.py。 这 个 中 间 件 的 作用 就 是 让 Scrapy 疏 取 网 站 时 随机 使 用 
IP 池 中 的 代理 。 修 改 后 的 customProxy.py 的 内 容 如 下 : 
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最 后 还 是 修改 settings.py 文件 ， 将 customProxy 加 入 到 DOWNLOADER_MIDDLEWARES 
项 中 。 修 改 后 的 settings.py 文件 内 容 如 下 : 


修改 完毕 后 ，Scrapy 就 可 以 随机 地 使 用 IP 池 中 的 代理 了 。 执 行 命令 scrapy crawl 
meiju100Spider 获取 最 新 的 美剧 。 
回 到 项 目 meiju100 的 主 目录 下 ， 使 用 tree 命令 查看 meiju100 项 目的 文件 ， 如 图 5-52 所 示 。 
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customProxy.py 
customProxy.pyc 
customUserAgent.py 
customUserAgent .pyc 
init__.py 
_init_.pyc 
resource.py 
resource.pyc 
Pipelines.py 
pipelines.pyc 
settings.py 
settings.pyc 
spiders 


init_.py 
Tinit .pye 
meiju100Spider.py 


meijul00Spider.pyc 
scrapy.cfg 


3 directories, 22 files 
fllking@debian: ~/code/crawler/scrapyProject/meijul00$ [] 





图 5-52 tree meijul00 


‘Se Ps JME HE AS Ar PSHE AS IH, ASE SAP ER ST o A R 
FEJ H GUERETA 


5.8 本 章 小 结 


本 章 详细 介绍 了 Scrapy 疏 虫 框架 的 使 用 ， 由 易 到 难 演 示 了 Scrapy MU HME HY A OL IW it 
程 ， 并 通过 扑 虫 与 反 息 虫 的 攻守 过 程 ， 让 读者 一 帘 Scrapy 中 间 件 的 使 用 方法 。 从 使 用 的 难度 
来 说 ，Scrapy 可 以 算得 上 最 简单 的 仆 虫 了 ， 简 单 到 只 需 做 填空 题 就 能 得 到 数据 ， 而 且 对 于 特 
殊 爬 虫 的 特殊 要 求 也 能 很 好 支持 。 
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上 一 章节 讲解 了 Python fy MEHR HESS Scrapy。 本 章 将 详细 讲解 另 一 个 Python MU He 
Beautiful Soup。 与 Scrapy 不 同 的 是 Beautiful Soup 并 不 是 一 个 框架 ， 而 是 一 个 模块 。 因 此 ， 
Beautiful Soup 不 能 再 做 填空 题 了 ， 只 能 从 头 到 尾 的 写作 文 了 。 

Beautiful Soup 最 新 版 本 是 4.4.0， 一 般 被 简称 为 bs4。bs 仅 支 持 Python 2.7， 如 果 想 使 用 
Python 3.0 版 本 的 Beautiful Soup， 那 就 只 能 使 用 Beautiful Soup 3 了 。Bs4 在 网 上 的 教程 不 
多 ， 好 不 容易 找到 几 个 ， 内 容 还 都 是 重复 的 。 这 里 主要 是 参考 bs4 的 官网 教程 ， 官 网 网 址 为 
http://beautifulsoup.readthedocs.io/zh_CN/latest/。 实 际 上 它 也 没什么 很 难 的 地 方 ， 与 Scrapy 相 
比 ， 除 了 选择 过 滤 有 所 不 同 外 ， 就 是 一 普通 的 Python 程序 。 


6. 1 安装 Beautiful Soup 环境 


bs4 并 不 是 软件 ， 它 只 是 一 个 第 三 方 的 模块 。 既 然 是 模块 ， 那 安装 起 来 就 比较 简单 了 。 
前 面 说 的 pip, ease_install 都 可 以 〈 推 荐 使 用 pip) o 


6.1.1 Windows 下 安装 Beautiful Soup 


在 Windows 下 安装 Bearutiful Soup 最 简单 的 方法 还 是 使 用 pip 安装 。 打 开 cmd.exe， 执 
行 命令 : 


© pip install beautifulsoup$ 
执行 结果 如 图 6-1 所 示 。 
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图 6-1 Windows 安装 bs4 


bs4 已 安装 到 Windows 中 ， 可 以 直接 使 用 了 。 


6.1.2 Linux 下 安装 Beautiful Soup 


Linux 中 安装 还 是 借助 于 Debian 的 数据 库 ， 以 便于 管理 。 在 终端 中 以 root 用 户 CRH 
通用 户 有 权限 ， 也 可 以 使 用 sudo 命令 安装 ) 执行 命令 : 


apt-get install Python-bs4 


执行 结果 如 图 6-2 所 示 。 


TRAD, MART 1 TRAD, EER o 个 软件 包 ， 有 96 个 软件 包 未 被 升 


的 软件 包 . 
xe 的 者 外 空间 - 
oF 





图 6-2 Linux 安装 bs4 


基于 Debian 一 贯 的 保守 策略 ，apt-get 安装 的 并 不 是 最 新 版 本 ， 而 是 目前 最 稳定 的 版 本 
4.3.2。 


6.1.3 最 强大 的 IDE——Eclipse 


Python 环境 下 有 很 多 优秀 的 IDE, WW Eclipse、Komodo、Sublime、Pycharm、vim、 
Emacs 等 ， 其 中 vim 和 Emacs 虽然 是 跨 平台 的 ， 但 配置 复杂 ， 而 且 界 面 也 比较 简陋 ， 不 符合 
美学 原则 。Pycharm、Komodo 在 编译 Python 时 还 不 错 。 但 笔者 更 希望 使 用 一 款 能 包 打 天 下 
的 兼容 所 有 语言 的 IDE， 而 Eclipse 不 负 众望 ， 大 而 全 配合 插件 后 无 所 不 包 ， 无 须 安装 到 系 
统 ， 可 直接 使 用 。 最 重要 的 是 Eclipse 免费 啊 ， 让 人 既 没有 使 用 盗版 的 负 次 感 ， 也 能 安然 享受 
全 部 的 服务 。Eclipse 是 跨 平台 的 IDE， 能 在 所 有 系统 下 运行 。 本 章 中 所 有 的 程序 如 不 特殊 注 
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明 都 将 在 Windows Fie 
1 . 安装 Eclipse 


Te 


打开 Eclipse 的 官网 下 载 页 面 http://www.eclipse.org/downloads/， 直 接 单 击 下 载 按钮 ， 如 图 


6-3 所 示 。 





> ¢ 


Download Eclipse Technology that is 
tforyou 


righ 





D www.eclipse.org/downloads/ 





图 6-3 ÈI FR Eclipse 


网 站 会 根据 访问 站 点 的 系统 从 访问 者 的 headers 就 可 以 得 出 操作 系统 ) 推荐 安装 程 


序 。 本 次 下 载 网 站 推荐 的 


是 eclipse-inst-win64.exe 前面 说 过 Eclipse 无 须 安装 ， 是 绿色 程序 


并 非 笔 误 。 这 个 所 谓 的 安装 程序 基本 就 是 个 解压 缩 文 件 ) 。 左 键 双击 安装 程序 ， 要 求 选择 


Eclipse 的 版 本 ， 如 图 6-4 


所 示 。 


eclipseinstaller 


type filter text 








IDE for Java EE Developers 





Eclipse IDE for C/C++ Developers 


An IDE for CCH developers with Myyn integration 


Eclipse IDE for JavaScript and Web Developers, 





Eclipse IDE for PHP Developers 


a 
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单 击 Eclipse IDE for java Developers 就 可 以 了 。 因 为 是 for java， 所 以 还 得 下 载 java 依赖 
包 。 如 果 网 速 给 力 ， 用 不 了 几 分 钟 就 可 以 下 载 完毕 。 下 载 完 毕 后 ， 安 装 程序 要 求 选 择 安装 位 
置 ， 如 图 6-5 所 示 。 








eclipseinstaller vor 


2 Eclipse IDE for Eclipse Committers 


Package suited for development of Eclipse itselfat Eclipse 


Installation Folder] D:\Program Files\ecipse\commmitters-ngcn 





VY create start menu entry 


¥ create desktop shortcut 





6-5 选择 安装 位 置 


填 入 合适 的 安装 位 置 后 ， 单 击 INSTALL 按钮 ， 稍 待 片刻 Eclipse 就 安装 完毕 。 双 击 桌 面 
上 的 Eclipse 图 标 运 行 Eclipse。 首 次 运行 时 会 提示 选择 工作 目录 ， 如 图 6-6 所 示 。 


Eclipse uses the workspace directory to store its preferences and development artifacts. 


Workspace: C:\Users\king\workspace a 





回 Use this as the default and do not ask again 
memel 
图 6-6 选择 工作 目录 
SHA Eclipse 的 工作 目录 ， 单 击 OK 按钮 ，Eclipse 界面 如 图 6-7 所 示 。 
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File dit Navigate 





Search Projet Run Window Hep 





ty rece 5 








s Get an overview of the features 
Review the IDEs most fiercely 
contested preferences 


Go through tutorials 


Feo ron Eatv Pugin projet 


Git repository 


Try dut the samples 


Find out what is new 





m s s 
Mort existing Ectpse projects from 
the fiesystem or archive 


+ 
w 


5 























图 6-7 Eclipse 界面 
Eclipse 安装 完毕 ， 下 一 步 将 安装 Eclipse 的 Python 插件 Pydev。 
2 . 安装 Pydev 插件 
在 Eclipse 的 菜单 上 单 击 Help|Install New Software 选项 ， 如 图 6-8 所 示 。 







le Edit Navigate Search Project Run Window (Help 













Welcome 





ss | @ Welcome 
Help Contents 

Search 

Show Contextual Help 






Show Active Keybindings..  Ctrl+Shift+L 
Tips and Tricks. 
Cheat Sheets... 


k= a the IDE's most fie & Perform Setup Tasks/ Trctall New Sofware. 
preferences 


Sy Check for Updates 
<= 


s+ i a Ne © Installation Details 
te a new Edipse Plug cose Marketplace. 


© About Eclipse 















图 6-8 ”安装 Python 插件 


打开 了 Eclipse 的 插件 安装 界面 ， 单 击 Add 按钮 ， 加 入 Eclipse 的 Python 插件 Pydev 的 安 
装 源 ， 如 图 6-9 所 示 。 





182 


#68 Beautiful Soup MEH 










Work with type or select a site 





type fiter text 





Name Version 
EO There is ro site selected. 
© Add Repository 


















are already installed 
irstaled? 

回 Show only software applicable to target environment 

Contact all update sites during instal! to find required sofware 








© 


6-9 设置 Pydev 安装 源 


设置 完毕 后 单 击 OK 按钮 ，Eclipse 将 显示 出 这 个 安装 源 中 所 有 的 可 用 插件 。 单 击 选中 
Pydev 插件 ， 单 击 Next 按钮 ， 开 始 安装 Pydev， 如 图 6-10 所 示 。 


| tall a xz 


Available Software 
Check the items that you wish to install, 


Work with: | Pydev - htipy/oydevorg/undates ~ 


Find more software by working with the Available Software Sites" preferences. 


type filter text 


Version 
PyDev 

Gt PyDev for Eclipse 

F G PyDev for Eclipse Developer Resources 
DTM tyes Uplyn tegration Topton 






9.1.2201606231256 
$.1.2.201606231256 


[ Selectat |] | DeselectAll 2items selected 

Details 

I] Show only the latest versions of available software 回 Hide items that are already installed 
网 Group items by category ‘What is already installed? i] 


El Show only software applicable to target environment 
[Zi Contact all update sites during install to find required software 

















6-10 ”安装 Python 插件 Pydev 


单 击 Next 按钮 ， 选 择 同 意 协 议 后 继续 单 击 Next 按钮 ， 直 到 Pydev 安装 完成 。 因 为 服务 
器 的 缘故 ， 这 个 安装 可 能 会 有 点 慢 。 不 用 着 急 ，Pydev 并 不 大 。 如 果实 在 没 耐性 ， 也 可 以 用 
下 载 工 具 将 Pydev 先 下 载 到 本 地 ， 离 线 安装 Pydev。 安 装 完毕 后 ， 按 照 提示 重启 Eclipse, F 
始 配置 Pydev 插件 。Pydev 插件 只 需要 配置 Python 解释 器 的 位 置 就 可 以 使 用 了 ， 其 他 的 配置 
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可 根据 需要 自行 调试 。 
在 Eclipse 菜单 栏 中 ， 单 击 Windows 菜单 ， 选 择 Preferences 选项 。 在 Preferences 对 话 框 
中 单 击 左 侧 的 pyDev， 选 择 Interpreter， 单 击 Python Interpreter 选项 ， 如 图 6-11 所 示 。 









Python interpreters (c.g: python evel, Double cick to rename. 
code Recommenders hm locntion 





Model Ed © Seloct interpreter = 


wm | 
a | [ ster the nome and execs of your interpreter 














图 6-11 选择 Python 解释 器 位 置 


单 击 New 按钮 ， 在 弹出 的 对 话 框 中 单 击 Browse 按钮 。 选 择 python.exe 的 路 径 ， 单 击 
OK 按钮 直到 Python 解释 器 导入 完毕 。 一 般 来 说 ， 下 一 步 应 该 是 给 Eclipse 加 载 中 文 包 。 但 
Eclipse Neon 版 本 还 很 新 ， 中 文 包 并 未 放出 ， 所 以 只 好 暂时 使 用 英文 版 本 的 。 如 果 非 要 中 文 
版 的 ， 那 只 能 重新 下 载 低 版 本 的 Eclipse 了 。 


3 . 创建 Python MA 


Eclipse 安装 配置 完毕 后 ， 开 始 创建 Python JHA. FFF Eclipse， 单 击 菜单 
File|New|Project 项 ， 创 建 一 个 项 目 ， 如 图 6-12 所 示 。 


EEC 


Navigate Search Project Run Window Help 
Alt+Shift+N » | 8 





3 Open Projects from File System... 
Close Ctrlew 
Close All Ctrl+Shift+W Interface 
Enum 
Annotation 
Source Folder 
Java Working Set 
Folder 
File 
Untitled Text File 
JUnit Test Case 
Task 


Cres 


Cul+Shift+s 


Convert Line Delimiters To 


Print.. 








Domkeaneskeegeer 


Other... 





6-12 Eclipse 创建 项 目 
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在 弹出 的 对 话 框 中 选择 区 项 目 类 型 。 这 里 应 该 选择 PyDev 项 目 中 的 PyDev Project 子 项 
目 。 选 取 完 毕 后 ， 单 击 Next 按钮 继续 ， 如 图 6-13 所 示 。 























B Plug- Development 
+B Ade 
@ wp= Django Project 
Bs DD Goosle App Engine Project 























图 6-13 选取 项 目 类 型 
在 弹出 的 对 话 框 中 输入 项 目 名 称 后 ， 单 击 Finish 按钮 ， 项 目 就 创建 完毕 了 ， 如 图 6-14 所 


© el z J) 


perm 2 
Se 2) 








ete 


Project contents: 
© Use default 


ry [EA\save\sync\code\crawler\bs4Project\helloPython Browse 








Click here to configure an interpreter not listed. 

© Add project directory to the PYTHONPATH 

© Create ‘cre folder and add it to the PYTHONPATH 

© Create links to existing sources (select them on the next page) 


© Don't configure PYTHONPATH (to be done manually later on) 
Working sete 


Elada pent wong et 


























@ = S| Sa | 


图 6-14 Python 项 目 名称 
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回 到 Eclipse 的 主 界面 下 ， 在 左 侧 将 出 现 刚 创建 的 Pydev 项 目 helloPython. 41 di 
helloPython 项 目 将 弹出 菜单 ， 选 择 New 选项 ， 弹 出 子 菜单 ， 如 图 6-15 所 示 。 





am a FF TS Quick Ace 











图 6-15 Python 项 目 创建 文件 


如 果 是 创建 文件 和 文件 夹 ， 正 常情 况 应 该 是 选择 File 和 Folder 选项 ， 但 笔者 更 喜欢 使 用 
PyDev Module 和 PyDev Package 选项 。 因 为 选择 File 会 创建 一 个 空 文件 ， 这 个 文件 里 什么 都 
没有 。 而 PyDev Module 选项 会 创建 一 个 根据 预 设 模版 (菜单 
Windows|Preferences|PyDev|Editor|Templates 下 的 <Empty> 项 ) 创建 的 .py 文件 ， 无 须 在 每 次 创 
建文 件 时 再 重复 设置 。Folder 将 创建 一 个 空 文件 夹 ， 而 PyDev Package 将 创建 一 个 包含 
init py 的 文件 夹 ( 就 是 在 上 章 中 创建 的 中 间 件 文件 夹 middlewares) ， 可 以 将 这 个 文件 夹 
下 的 Python 文件 当成 模块 导入 到 项 目 中 。 

下 面 来 测试 一 下 ， 创 建 一 个 PyDev Module， 名 为 hello.py， 创 建 一 个 PyDev Package 名 
为 testModule， 并 在 testModule 中 创建 一 个 PyDev Module， 名 为 myModule。 创 建 完毕 后 的 
目录 结构 如 图 6-16 所 示 。 


File Edit Source Refactoring 


> B hello.py 
» EPSram Files\python 





图 6-16 目录 结构 
【示例 6-1】 其 中 ，hello.py 的 内 容 如 下 : 
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testModule/myModule.py 的 内 容 如 下 : 





单 击 Eclipse 的 Run 菜单 ， 选 取 Run 选项 (Ctrl + F11)， 或 者 直接 单 击 工具 栏 的 Run 按 
钮 ， 执 行 结果 如 图 6-17 所 示 。 

















6-17 选取 Python 解释 器 
选择 Python Run 后 单 击 OK 按钮 。 运 行程 序 ， 运 行 结 果 如 图 6-18 所 示 。 
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File Edit Source Refactoring Navigate Search Project ydev Run Window Help 


Et ia) Weed 














ex&%Qe\RHeEE ra-n-oo 
Vas helloPython\hello.py 








6-18 运行 Python 程序 
运行 无 误 ，Eclipse 测试 完毕 。 选 择 Eclipse 做 IDE 除了 它 跨 平 台 、 支 持 语 言 丰富 外 ， 还 
因为 Eclipse 有 着 强大 的 调试 功能 。 在 后 面 的 实例 中 会 演示 Eclipse Debug 调试 的 强大 方便 之 
处 。 


6 ə 2 BeautifulSoup 解析 器 


与 Scrapy 相 比 ，bs4 中 间 多 了 一 道 解析 的 过 程 〈Scrapy 是 URL 返回 什么 数据 ， 程 序 就 接 
受 什么 数据 进行 过 滤 ) 。bs4 则 在 接收 数据 和 进行 过 滤 之 间 多 了 一 个 解析 的 过 程 。 根 据 解析 
器 的 不 同 ， 最 终 处 理 的 数据 也 有 所 不 同 。 加 上 这 一 步骤 的 优点 是 可 以 根据 输入 数据 的 不 同 进 
行 针 对 式 的 解析 ， 缺 点 就 是 可 能 会 让 使 用 者 选择 困难 ， 无 所 适 从 。 在 本 章 中 ， 统 一 选择 Ixml 
解析 器 。 


6.2.1 bs4 解析 器 选择 

网 络 爬 虫 最 终 的 目的 就 是 过 滤 选 取 网 络 信息 ， 因 此 最 重要 的 部 分 就 是 解析 器 了 。 解 析 器 
的 优 劣 决 定 了 网 络 朴 虫 的 速度 和 效率 。Beautiful Soup 除了 支持 Python 标准 库 中 的 HTML 解 
析 器 外 ， 还 支持 一 些 第 三 方 的 解析 器 。 表 6-1 中 列 出 了 主要 的 解析 器 ， 以 及 它们 的 优 缺 点 。 
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表 6-1 bs4 解析 器 对 比 


使 用 方法 


BeautifulSoup(markup,”html parser”) 


BeautifulSoup(markup,”1xml”) 


优点 

Python 标准 库 
执行 速度 适中 
容错 能 力 强 


速度 快 
容错 能 力 强 


缺点 


Python 2.7.3 or 
Python 3.2.2 之 前 
的 版 本 中 文 容错 
能 力 差 


需要 安装 C 语言 
库 





Lxml XML 解析 器 


htmlslib 


BeautifulSoup(markup,[“Ixml-xml”}) 
BeautifulSoup(markup,”xm!”) 
BeautifulSoup(markup,”html Slib”) 


速度 快 
唯一 支持 XML 解析 器 


最 好 的 容错 性 


需要 安装 C 语言 
库 


速度 慢 








以 浏览 器 的 方式 解析 文 | 不 依赖 外 部 扩展 
档 


生成 HTMLS 格式 文档 








Beautiful Soup 官方 推荐 使 用 Ixml 作为 解析 器 ， 据 说 因为 lxml 解析 器 的 效率 更 高 ， 在 此 
接受 官方 意见 。 本 章 所 有 的 bs4 候 虫 ， 如 无 特殊 说 明 都 将 使 用 Ixml 解析 器 。 


6.2.2 Ixml 解析 器 安装 
1. Windows 下 安装 lxml 解析 器 
先 使 用 pip 安装 试 一 下 ， 执 行 命令 : 
pip install lxml 


执行 结果 如 图 6-19 所 示 。 
画 CNWindowsvsysten 


ron_nessage.xsl -> build\lib.win-and64-2.?\1xm1\isoschenatron\resources xsl\iso + 


schenatron-xs1ti 


copying src\lxml\isoschematron\resources \xs 1\iso-schenatron-xs 1t1\iso_schema 
ron_skeleton_for_xslti.xs1 -> build\lib.win-and64-2.?\1xm1\isoschematron\resour 


es \xs 1\iso-schematron-xs Iti 


copying src\lxml\isoschematron\resources \xs 1\iso—schematron—xs 1t1\iso_surl_£ 
or_xslti.xsl -> build\Lib.win-and64-2.7\1xm1\isoschematron\resources\xs 1\iso-sch 


ematron-xs1ti 


copying src\lxm1\isoschematron\resources \xs 1\iso-schematron-xs 1t1\readne.txt 


-> build\1ib.win-and64-2.?\1xm1\isoschematron\resources \xs1\iso-schematron-xs lt 





omnand ""d:\program files\python27\python.exe" -u -c “import setuptools, tokeni 
re;__file__=’c:\\users\\king\\appdata\\local\\temp\\pip-build-vjnf 7b\\1xml\\setu 


’ sexec(compile<getattr<tokenize, 


topen’, open><_ file _>.read(>-replace(’ SeS 


’\n’>, file. ’exec’>>" install —record c:\users\king\appdata\local\temp 
pip-xnk?gp-record\install-record.txt —single-version-externally-managed —comp 
le" failed with error code 1 in c:\users\king\appdata\local\temp\pip-build-vjnf 


bslxml\ 





6-19 Windows 安装 kml 
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在 Windows 下 使 用 pip 安装 lxml 总 会 出 现 这 样 或 那样 的 问题 。 如 果 非 要 用 pip 安装 ， 那 
就 按照 提示 的 错误 一 步 一 步 地 解决 所 有 的 错误 ， 再 pip 安装 。 如 果 不 追 求 过 程 上 只 要 求 结果 ， 
那 就 简单 了 。 先 在 http://www.l|fd.uci.edu/~gohlke/pythonlibs/#Ixml 下 载 符合 自己 系统 版 本 的 
lxml (笔者 下 载 的 是 lkml-3.6.1-cp27-cp27m-win_amd64.whl)， 使 用 pip 远程 安装 wheel 模块 
后 再 使 用 pip 本 地 安装 Ixml 模块 。 执 行 命令 : 





在 cmd.exe 里 测试 一 下 ， 如 图 6-20 所 示 。 


+ Wsers\king>python 
Python 2.7.11 v2.7.11:6dib6a68f775, Dec 5 2815, 20:40:38) [MSC v.1588 64 bit fi 


'» “credits” or “license” for more information. 





图 6-20 Wik Ixml 模块 
没有 提示 错误 ， 表 明 安 装 成 功 。 
2. Linux 下 安装 lxml 解析 器 


使 用 apt-get 安装 ， 执 行 命令 : 
apt-get install Python 
执行 结果 如 图 6-21 所 示 。 


python-lxml 
Pan 0 个 软件 包 ， 新 安装 了 1 THAR. KER 0 个 软件 包 ， 有 0 个 软件 包 未 被 升级 


ae 0 B/754 kB 的 软件 - 
消耗 掉 2,040 kB Benen. 
正在 选中 未 选择 的 软件 包 pycnon-1xe2 
eee 取 数 据 库 ... 系统 当前 共 安装 有 asso5 个 文件 和 目录 ) 
各 解 包 . /pyEhon-laml < 3.4.0-1_amd64.deb ... 





root @debian: /home/king# 


图 6-21 Linux 安装 Ixml 


显然 Linux 的 apt-get 更 加 简单 方便 。 


6.2.3 ”使 用 bs4 过 滤器 


在 上 一 章 中 ，Scrapy 使 用 XPath 当 过 滤器 ， 在 网 页 中 过 滤 得 到 所 需 的 数据 。 本 章 bs4 则 
使 用 BeautifulSoup 做 过 滤器 。 与 XPath 相同 的 是 BeautifulSoup 同样 支持 嵌 套 过 滤 ， 可 以 很 
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方便 地 找到 数据 所 在 的 位 置 。 不 同 的 是 BeautifulSoup 的 查找 方式 更 加 灵活 方便 ， 不 但 可 以 通 
过 标签 查找 ， 还 可 通过 标签 属性 来 查找 。 而 且 bs4 还 可 以 配合 第 三 方 的 解析 器 ， 可 以 有 针对 
性 地 对 网 页 进行 解析 ， 使 bs4 威力 更 加 强大 、 方 便 。 

官网 教程 上 使 用 的 是 爱丽 丝 梦 游 仙境 的 内 容 作 为 示例 文件 ， 但 这 个 文件 比较 大 ， 看 起 来 
没 那 么 直观 。 这 里 笔者 自 建 一 个 htm 的 示例 文件 scenery.html， 通 过 对 scenery.html 的 操作 过 
滤 ， 再 对 照 官 网 对 示例 文件 的 操作 方法 ， 很 容易 就 能 明白 bs4 是 如 何 过 滤 提 取 数 据 的 。 


【示例 6-2】 自 建 示例 文件 scenery.html 的 内 容 如 下 : 





进入 文件 目录 执行 命令 : 





执行 结果 如 图 6-22 所 示 。 
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>>> .ZOURsRESEEAEL 
<bound method BeautifulSoup.prettify of <html> 
<head> 


meta charset="utf-8"/> 


|<title> 武 汉 旅游 景点 </title> 
BR 


Kmeta content=" 武 汉 旅游 景点 精简 版 ”name="descripcion"/> 
meta content="hstking" name="author"/> 


<ul class="table"> 
<1i> 景 点 <a> 门 票 价格 </a></1i> 

K/ul> 

<ul class="content"> 

<li na="l"> 东 湖 <a class="price">60 </a></1i> 

<li nu="2"> 磨 山 <a class="price">60 </a></li> 

kli nu="3"> 欢 乐 从 <a class="price">108 </a></1i> 

<li nu="4"> 海 昌 极地 海洋 世界 <a class="price">150 </a></1i> 
kii nu="5"> 玛 雅 水 上 乐园 <a class="price">is0 </a></1i> 





图 6-22 soup.prettify 








Pe =| bs4 会 将 所 有 输入 的 内 容 的 字符 编码 编 为 unicode。 输 入 内 容 为 英文 时 还 看 不 出 什么 优 
| 势 ， 但 在 过 滤 中 文 网 页 时 会 非常 方便 。 





一 个 文件 或 一 个 网 页 ， 在 导入 BeautifulSoup 处 理 之 前 ，bs4 并 不 知道 它 的 字符 编码 是 什 
么 。 在 导入 BeautifulSoup 过 程 中 ， 它 会 自动 地 猜测 这 个 文件 或 是 网 页 的 字符 编码 。 常 用 的 编 
码 当然 会 又 快 又 好 地 猜 出 来 。 但 不 常用 的 编码 呢 ? 好 在 BeautifulSoup 还 有 两 个 非常 重要 的 参 
数 : exclude_encoding 和 from_encoding。 

参数 exclude_encoding 的 作用 是 排除 掉 不 正确 的 字符 编码 。 例 如 ， 已 经 非常 确定 网 页 不 
是 iso-8859-7 也 不 是 gb2312 编码 ， 但 又 未 知 网 页 编码 时 ， 就 可 以 使 用 命令 : 


此 时 bs4 就 会 放弃 猜测 这 两 种 编码 。 比 如 如 果 已 知 网 页 的 具体 编码 是 big5， 也 可 以 直接 
使 用 from_encoding 参数 确定 编码 ， 让 bs4 放弃 猜测 ， 可 以 使 用 命令 : 
| soup = BeaurtifulSoup(response.read(), exclude_encoding="big5') 

一 般 来 说 bs4 都 不 需要 自己 确定 编码 ， 常 用 的 字符 编码 它 都 能 检测 出 来 。 但 有 时 碰见 比 
较 生 个 的 编码 时 ， 这 两 个 命令 就 显得 非常 重要 了 。 中 文 的 字符 编码 是 个 非常 讨厌 的 问题 ， 如 
果 不 知道 文件 的 字符 编码 ， 而 bs4 又 解析 编码 错误 时 ， 那 就 只 有 根据 官网 的 方法 ， 安 装 
chardet 或 者 cchardet 模块 ， 然 后 使 用 UnicodeDammit 自动 检测 了 。 

解决 字符 编码 这 个 问题 后 ， 已 经 得 到 了 soup 这 个 bs4 的 类 。 在 soup 中 ，bs4 将 网 页 节点 
解析 成 了 一 个 个 Tag。 同 名 的 Tag (HTML 中 的 标签 就 那么 几 个 ， 所 以 同名 的 Tag 会 非常 
多 ) 会 有 不 同 的 属性 。 即 使 同名 又 同属 性 的 Tag， 它 们 又 有 顺序 和 父 标签 的 区 别 。bs4 就 是 通 
过 这 些 不 同 将 所 需 的 数据 过 滤 出 来 的 。 

这 里 的 Tag 与 html 或 xml 中 的 Tag 是 一 致 的 。 执 行 命令 : 
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rsp 
得 到 的 结果 如 图 6-23 所 示 。 
以 上 命令 的 作用 是 通过 soup 来 获取 第 一 次 出 现 的 标签 名 为 ul 的 标签 内 容 。 用 同样 的 方 
法 ， 可 以 获取 第 一 个 出 现 的 ， 标 签名 为 div、li、head、title…*… 的 标签 内 容 。 
如 果 某 个 标签 只 出 现 了 一 次 ， 比 如 <head>、<title> 标 签 ， 通 常 只 会 出 现 一 次 。 可 以 用 


soup.head 和 soup.title 的 方式 获取 标签 内 容 ， 还 可 以 用 bs4 过 滤器 soup.find(Tag, [attrs]) 的 方法 
获取 第 一 次 出 现 的 标签 的 内 容 。 执 行 命令 : 


执行 结果 如 图 6-24 所 示 。 


TH EE Te 


class="table" 


IDRA TTIR e</a></1s> 


ul Pee ee p>> soup.find("ul") 

11> 景 点 <a> Ja></1i> ul class="table"> 

ul> 11i> 景 点 <a> 门 票 价格 </a></1i>| 
= /ul> 


6-23 soup 获取 Tag 图 6-24 soup.find 获取 Tag 


在 一 个 HTML 文件 中 ， 有 的 标签 肯定 不 止 出 现 一 次 。 具 体 到 这 个 示例 文件 scenery.html 
中 ，<div>、<ul>、<li> 就 不 止 出 现 一 次 。 第 一 次 出 现 的 标签 位 置 如 何 确定 已 经 很 清楚 了 ， 那 
第 二 次 、 第 三 次 、 第 N 次 呢 ? bs4 给 出 的 方法 是 soup.find_all(Tag，[attrs])。 使 用 find_all 
命令 可 以 获取 所 有 符合 条 件 的 标签 列表 ， 然 后 直接 从 列表 中 读 取 就 可 以 了 。 执 行 


行 结果 如 图 6-25 所 示 。 





[<11 nu="z"> 摩 山 <a class="price">60 </a></1i> 

KRG <a class="price">108 </a></1i> 
[<11 nu="4"> 海 昌 极 地 海洋 世界 <a class="price">150 </a></li> 
<li nu="5"> 玛 雅 水 上 乐园 <a class="price">i50 </a></1i> 


1 nu min < <a class="price">60 </a></li> 

14 nu="2">@ ili <a class="price">60 </a></1i> 

li nu="3"> 欢 乐 答 <a class="price">108 </a></1i> 

1i nu="4"> 海 昌 极 地 海洋 世界 <a class="price">150 </a></li> 
1i nu="5"> 玛 雅 水 上 乐园 <a class="price">i50 </a></1i> 





图 6-25 soup.find_all 获取 Tag 
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从 顺序 上 来 区 别 同名 标签 ， 这 样 出 现 再 多 的 同名 标签 也 可 以 很 从 容 地 定位 了 。 在 html 
中 ， 同 名 标签 比较 少时 ， 可 以 先 用 soup.find_all 来 获取 标签 位 置 列表 ， 再 用 一 个 个 数 的 方法 
来 确定 标签 位 置 。 如 果 这 个 列表 比较 短 还 好 ， 从 1 数 到 20 还 可 以 接受 。 如 果 这 个 列表 很 长 
We? 从 1 数 到 100 那 就 太 讨厌 了 。 

还 是 以 scenery.html 文件 为 例 ， 文 件 中 的 < 标签 ， 目 前 在 文件 中 只 出 现 了 6 次 。 如 果 列 
出 所 有 的 景点 ， 标 签 <li> 出 现 60 次 都 不 奇怪 。 仔 细 观 察 一 下 li 标签 ， 它 们 除了 名 字 相 同 外 ， 
还 有 一 个 相同 的 属性 nu， 而 属性 nu 的 值 是 不 同 的 。bs4 过 滤器 Soup.find 和 soup.find_all 都 
支持 名 字 + 属 性 值 定位 。 

如 果 一 个 html 文件 中 出 现 了 标签 名 相同 ， 属 性 不 同 的 标签 。 例 如 ，scenery.html 文件 中 
的 <li> 标 签 ， 可 以 用 soup.find(TagName, attrs={attrName:attrValue}) 的 方法 获取 Tag 的 位 置 。 
比如 需要 定位 标签 文字 为 欢乐 谷 的 那个 <li> 标 签 〈<li> 标 签 的 属性 是 相同 的 ， 都 是 nu， 只 是 
属性 值 不 同 )。 可 以 执行 命令 : 

soup.find('li', attrs={'nu':'3'}) 


执行 结果 如 图 6-26 所 示 。 


>>> soup. find('1i', attrs=('nu':'3'}) 
<li nu="3" MRE <a class="price">108 </a></1i> 


>>> 目 





6-26 soup.find 配合 属性 获取 标签 


如 果 标 签名 相同 ， 属 性 相同 ， 连 属性 值 都 相同 的 标签 ， 那 就 用 soup.find_all(tagName, 
attrs={“attName”:"attValue’}) 将 所 有 符合 条 件 的 标签 装 入 列表 ， 然 后 从 列表 中 慢 慢 地 数 。 请 放 
aby, 一般 情况 下 ， 标 签名 相同 ， 属 性 相同 ， 连 属性 值 都 相同 的 标签 在 任何 一 个 文件 中 都 是 很 
少见 的 。 在 sceneryhtml 文件 中 ， 符 合 这 个 条 件 的 只 有 <a> 标 签 〈 如 果 是 显示 完整 的 景点 <a> 
标签 也 会 很 多 ， 那 是 下 一 步 的 问题 )。 如 果 需 要 获取 景点 “ 磨 山 ” 这 一 行 的 <a> 标 签 ， 可 以 执 
行 命令 : 

Tags = soup.find_all('a', attrs={'class':'price'}) 

Tags[1] 


执行 结果 如 图 6-27 所 示 。 





>>> Tags = soup.find all('a', attrs={'class':'price'}) 

>>> Tags[1] 四 
<a class="price">60 </a> 

>>> 目 - 








图 6-27 soup.find_all 配合 属性 获取 标签 
目前 HTML 没有 列 出 所 有 的 景点 ，<a> 标 签 还 比较 少 ， 如 果 列 出 了 所 有 景点 <a> 标 签 很 
多 ， 该 怎么 办 ? 再 仔细 观察 一 下 <a> 标 签 ， 所 有 <a> 标 签 的 标签 名 、 属 性 和 属性 值 虽 然 是 相同 
的 ， 但 它们 的 上 级 标签 〈 也 就 是 常 说 的 父 标 签 ) 的 标签 名 、 属 性 和 属性 值 总 不 可 能 相同 吧 ? 
即使 运气 再 差点 ， 上 级 标签 的 标签 名 、 属 性 、 属 性 值 都 相同 ， 上 上 级 标签 的 难道 也 相同 ? 还 
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是 以 获取 景点 ,“ 磨 山 ” 这 一 行 的 <a> 标 签 为 例 ， 执 行 命令 : 


执行 结果 如 图 6-28 所 示 。 


CE 
ka class="price">60 </a> 





图 6-28 soup HASH RE 


这 种 不 直接 定位 目标 标签 ， 先 间接 定位 目标 标签 的 上 级 〈 也 可 以 是 下 级 ) 标签 ， 再 间接 
定位 目标 标签 的 方法 ， 有 点 类 似 于 Scrapy 中 XPath HRE T o 

实际 上 ， 如 果 觉 得 目标 标签 没什么 显著 特征 ， 上 级 标签 和 下 级 标签 也 没有 什么 显著 特 
征 。 还 可 以 定位 目标 标签 的 兄弟 标签 。 不 过 这 种 方法 一 般 很 少 用 ， 这 里 就 不 多 说 了 。 如 果 有 
兴趣 可 以 参考 官方 文档 。 

一 般 来 说 ， 最 终 需 要 获取 保存 的 数据 都 不 会 是 标签 ， 而 是 标签 里 的 数据 ， 这 个 数据 有 可 
能 是 标签 所 包含 的 字符 串 ， 也 有 可 能 是 标签 的 属性 值 。 不 过 获取 标签 后 ， 要 数据 那 就 很 简单 
了 。 例 如 获取 示例 文件 中 海 昌 极地 海洋 世界 这 个 景点 的 序号 和 票 价 ， 也 就 是 这 一 行 标签 <li> 
的 属性 nu 的 值 和 <a> 标 签 包含 的 字符 串 。 可 以 执行 命令 : 


执行 结果 如 图 6-29 所 示 。 


>>> Tag = soup.find('li', attrs={'nu':'4'}) 





6-29 soup 获取 数据 


如 果 只 需要 做 简单 仆 虫 ， 了 解 以 上 知识 就 可 以 了 。 如 果 需 要 对 bs4 进行 深度 挖掘 ， 还 需 
要 读者 自行 参考 bs4 的 官方 文档 。 
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6.3  bs4 把 虫 实战 一 : 获取 百度 贴吧 内 容 


笔者 是 个 美剧 迷 ， 经 常 在 网 上 追 剧 ， 偶 尔 也 在 百度 贴吧 上 看 看 美剧 贴 ， 可 懒 癌 又 比较 严 
重 ， 天 天 登录 贴吧 查看 贴 子 又 觉得 很 麻烦 。 干 脆 就 写 个 息 虫 让 它 自动 假 内容 好 了 ， 有 空 就 看 
看 哪些 帖子 回复 了 ， 又 有 哪些 新 贴 。 这 里 以 百度 贴吧 里 的 “权利 的 游戏 吧 ” 为 例 。 


6.3.1 目标 分 析 


百度 贴吧 中 “权利 的 游戏 ”的 URL 是 http://tieba.baidu.com/f?kw=%E6%9ID%83%E5S% 
88%A9%E7%9A%84%E6%B8%B8%E6%88%8F&ie=utf-8&pn=0。 看 起 来 很 乱 是 不 是 ?仔细 看 
看 这 个 URL， 其 中 包含 有 ie=utf8， 说 明 那 个 浏览 器 接受 的 是 utf8 的 字符 编码 ， 而 在 
Windows 下 默认 的 是 GBK 码 ， 所 以 在 Windwos 下 如 果 想 让 浏览 器 能 正常 识别 URL， 就 必须 
把 Windows 默认 的 GBK 转换 成 utf8 格式 。URL 是 纯 英文 的 情况 下 ， 转 不 转换 都 没关系 ， 反 
正 都 是 一 样 的 。 当 URL 含有 中 文 时 ， 转 换 后 的 URL 就 会 出 现 乱码 ， 如 图 6-30 所 示 。 


D king@debian: ~ 








[Using username "king". 
lAuthenticating with public key “imported-openssh-key" 


F&ie=utf8&pn=50。 好 的 ， 明 白 了 。 每 按 一 次 “下 一 页 ”按钮 ，pn 将 增加 50。 
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|The programs included with the Debian GNU/Linux system are free software: 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

Last login: Mon Aug 15 15:36:32 2016 from 192.168.2.99 
king@debian:~$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

[Type "help", "copyright", "credits" or “license” for more information. 
>>> st = ua 权利 的 游戏 ' 

>>> st.encode ('utf8') 
*\xe6\x9d\x83\xe5\x88\xa9\xe7\x9a\x84\xe6\xb\xb2\xe6\x88\xef! 
>>> 





FA 6-30 ”编码 转换 








这 个 由 “权利 的 游戏 ”转换 而 来 的 乱码 是 不 是 很 眼熟 。 所 以 这 个 URL 原本 的 状态 应 该 是 
http://tieba.baidu.com/f?kw= 权 利 的 游戏 &ie=utf-8&pn=0， 在 交 给 浏览 器 或 者 python 程序 处 理 
时 再 将 它 转换 成 utf8 编码 就 可 以 了 。 
在 网 页 上 单 击 “ 下 一 页 ”按钮 ， 浏览 器 跳 转 得 到 的 URL 是 
http://tieba.baidu.com/f?kw=%E6%9D%83%E5%88%A9%E7%9A%84%E6%B8%B8%E6%88%8 


在 浏览 器 (这 里 使 用 的 是 Chrome 浏览 器 ， 其 他 浏览 器 基本 上 都 差不多 ) 中 打开 这 个 
URL (utf8 版 的 和 GBK 版 本 的 都 行 ， 浏 览 器 会 自动 转换 成 utf8 版 的 ， 但 在 python 程序 中 必 
须 使 用 utf8 版 的 ) ， 查 看 帖子 标题 ， 如 图 6-31 所 示 。 





#68 Beautiful Soup EH 


Baie 权利 的 游戏 BEJ sees 


Em ‘enn ort 


374 ”上 [权利 的 游戏 1-6 季 , AEE 


AEAF» (Game of Thrones PRESETS RR 马丁 的 奇幻 小 说 








需要 资源 的 宝 由 看 进来 哇 





6-31 bs4 爬虫 来 源 页 面 


在 页 面 空白 处 右 击 选 择 “ 查 看 页 面 源 代码 ”， 在 页 面 源 代码 网 页 按 Ctrl+F 键 打开 查找 
框 ， 在 查找 框 内 输入 第 一 个 帖子 的 标题 名 ， 找 到 所 需 数 据 位 置 ， 如 图 6-32 所 示 。 

















3314, aque i is. Erai l, hquot 各 qhot :8quot;8quot ;, &quot :is_goodkquot; :null, &quot; is_tophquot; :null, &quot; is_protalhquot :ma 
nenbertophquot ;:null, quot :frs_tpoint& quot ;:rull}” > 
<div class="t_con cleafix"> 





<div class=“col2_left j_threadlist_li_left” 
<span class="threadlist_rep_mum center_text* 
t 让 le= "回复 ">374C/spary 
</div. 
<div clas="col2_right j_threadlist_li_right “> 
<div clase="threadlist_lz clearfix” 
<div class="threadlist_title pull_left jth tit 








<a href="/p/4673258358 itie 


6-32 ”所 需 数据 位 置 


找到 所 需 数 据 的 位 置 后 ， 和 仔细 观察 一 下 ， agg uae -个 共同 的 标签 <li class=" 
j_thread_list clearfix"> 〈 这 个 标签 还 有 其 他 的 属性 ， 只 需要 一 个 共同 的 属性 就 够 了 ) 。 所 以 只 
需要 用 bs4 过 滤器 find_all 找到 所 有 的 标签 ， 然 后 再 进 ae 


6.3.2 项目 实施 


然 思 路 都 已 经 明确 了 ， 那 就 开工 吧 。 打 开 Eclipse， 单 击 New 图 标 右 侧 的 三 角 按 钮 ， 
ai PyDev Project 项 ， 如 图 6-33 所 示 。 


Source Folder 
PyDev Package 
PyDev Module 
Folder 

File 

Untitled Text File 


a 
出 
B 
a 
is 


a 


Other... 








图 6-33 Eclipse 创建 Python 新 项 目 
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在 弹出 的 对 话 框 中 输入 项 目 名 称 ， 单 击 Finish 按钮 ， 如 图 6-34 所 示 。 








Edit Navigate Search Project Pydev Run Window Help 


EAC OS WISH TIS 


-= 


I8 PyDev Package.. | = O 





PyDev Project 
Create a new PyDev Project. 





Project name: baidu8S4 


Project contents: 
E| Use default 
ctory | E:\save\sync\code\crawler\bs4Project\baiduBS45 
Project type 
Choose the project type 
© Python © Jython © IronPython 


Grammar Version 





区 





|| Interpreter 





[Default 





lick her nfigure an interpreter not lis 
@ Add project directory to the PYTHONPATH 
Create ‘src’ folder and add it to the PYTHONPATH 
Create links to existing sources (select them on the next page) 


Don't configure PYTHONPATH {to be done manually later on) 
Working sets 





回 Add project to working sets 


@ 


图 6-34 输入 项 目 名 





在 Eclipse 的 左 侧 右 击 刚 建 立 的 项 目 baiduBS4， 在 弹出 的 菜单 中 选择 New|PyDev Module 
菜单 。 在 项 目 中 创建 一 个 新 的 Python 模块 《前面 提 到 过 ， 这 本 





EE PyDev Module 是 为 了 方 


便 。 非 要 选择 file， 从 零 开 始 一 步 步 地 创建 一 个 Python 文件 当然 也 可 以 ) ， 如 图 6-35 所 示 。 
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TRY 
Edit Navigate Search Project Pydev Run Window Help 


Lee Ore eye 





Folder 


GS Link to Existing Source 


Remove from Context Cirle Alte Shifts Down 


6-35 项目 中 创建 Python 文件 


#62 Beautiful Soup MEH 


在 弹出 的 对 话 框 中 输入 Python 文件 的 文件 名 《无须 加 后 缀 名 ) , Aidt Finish 按钮 。 
Python 文件 创建 完成 ， 如 图 6-36 所 示 。 


a FR FF 





Hf PyDev Package.. 2| = O 
esli# 了 


4 























6-36 Python 文件 名 


【示例 6-3】 在 新 创建 的 getCommentinfo.py 中 输入 代码 ，getCommentInfo.py 的 代码 如 下 : 
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| 6% Beautiful Soup E 


按照 上 面 的 步 又， 在 项 目 中 重新 建立 一 个 名 为 mylog.py 的 PyDev Module (也 可 以 是 一 
个 单纯 的 File). 


【示例 6-4] mylog.py 的 内 容 如 下 : 








Python MERS 








项 目 代码 已 经 完成 了 。 此 时 Eclipse 中 的 项 目 如 图 6-37 所 示 。 








jer" 
4 Created on 201628495 


5 
6 G@author: hstking hsthinghotmail..com 
7 





8 
9 


10° import urllib2 
11 from bs4 import BeautifulSoup 

12 from mylog import MyLog as mylog 
13 


14 
155 class Item(object): 
16 title = None = 00359 





图 6-37 Eclipse 项 目 baiduBS4 


单 击 菜单 栏 上 的 运行 图 标 ， 程 序 运行 完毕 后 单 击 baiduBS4 项 目 图 标 ， 按 FS 键 刷新 。 得 


到 的 结果 如 图 6-38 所 示 。 
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BI Quick access || m | & +e 
D Ame 权利 的 游戏 bt 22 | an 

















3 return:110 
4 lastAuthor:jobforduanl lastTime:23:17 
E) getCommentinfo.py 5 
6 
B mylogpy 
B Sa 


PRM TRMECESISOIS S97 mamRe author :h603676260  firstTine:8-J 


E helopyhon 





15 titlersssemsercesseesen ge  author:@@iivesmes — firstTime:8-1 
16 content: mms miz/9988 ame 

17 return:23 

18 lastAuthor:mug@eoe  lastTime:23:17 


eamemES author: 9s 
SARE cussema ~ 
G 


© Console & Pi PyUnit exeQG Rae- no 
<terminated> E:\save\sync\code\crawler\bs4Project\baiduBS4\getCommentinfo.py 























2016-08-16 23:17:34,651 INFO king mumcperaraszsaEe 2602nene>nTe 
a 

‘| , 
| Writable Insert 7:1 





6-38 Eclipse 运行 结果 


运行 完毕 后 得 到 了 两 个 新 文件 。 一 个 是 log 文件 getCommentInfo.log, ~AN 
n “百度 贴吧 _ 权 利 的 游戏 .txt”。 在 “百度 贴吧 _ 权 利 的 游戏 .txt” 文 件 中 的 中 文明 显 有 
， 没 关系 ， 那 是 因为 直接 用 Eclipse 的 编辑 器 打开 的 缘故 。 右 击 Eclipse 左边 “百度 贴吧 _ 
ww txt” 的 图 标 ， 在 弹出 的 菜单 中 选择 Open With 菜单 ， 然 后 在 弹出 的 子 菜单 中 选择 
System Eitor 项 ， 使 用 Windows 自 带 的 笔记 本 打开 文件 ， 乱 码 就 不 见 了 ， 如 图 6-39 所 示 。 
ee | 
HE PyDev Package. 2 = O [E getCommentinfo [£ getCommentl... D Snes 权利 9 游戏 xt 22 |) a5 














akip = 1 title: genasenl- 68 ane seemehpussie 。 author:sirsmthput 人 
4 baiduese 3 reco a 
E getCommentinfe.log a Tastauthor:jobforduant  lactTise:23:17 


» B) getCommentinfe.py 
B mylogpy 
ES praises. tat 
» @ D\Program Fies\pythor 
E heloðythen 





J ARSE SANDE- 记事 本 
ZA RAE ERO EEV AH 
title: CRB) (AERIS Rs CHR 要 的 加 whew4610 。 author: 加 向 型 whpu4610 firstTime:8-11 


contani 
return:110 
lastAuthor : jodforduant 

















lastTime:23:17 








图 6-39 笔记 本 打开 文件 
这 是 因为 “百度 贴吧 _ 权 利 的 游戏 .txt” 文 件 中 数据 保存 的 是 utf8 编码 。 Eclipse 自 带 的 文 
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字 编 辑 器 默认 支持 的 是 GBK 编码 ， 所 以 会 显示 乱码 。 而 Windows 记事 本 notepad 虽然 也 默 
认 支 持 的 是 GBK， 但 是 它 同 时 也 支持 utf8 编码 。 


6.3.3 ”代码 分 析 


在 项 目 baiduBS4 中 除了 主 程序 外 ， 笔 者 还 自 定义 了 一 个 mylog.py 模块 (对 ， 就 是 模 
块 ， 这 个 python 程序 就 是 做 模块 用 的 ) 。 这 个 模块 的 作用 很 明显 ， 就 是 为 了 主 程序 提供 log 
功能 。 

log 功能 很 重要 。 虽 然 Eclipse 已 经 提供 了 非常 方便 的 Debug 功能 。 没 有 log 配合 就 只 能 
从 头 到 尾 一 步 一 步 地 调试 。 几 步 十 几 步 那 也 就 妨 了 ， 可 息 虫 动 辐 几 十 页 上 百 页 的 扑 行 ， 一 旦 
出 错 ， 没 有 log 帮助 定位 ， 很 难 找到 错误 点 。 

这 个 mylog.py 写 得 很 简单 。 只 是 将 Python 的 标准 模块 logging 简单 地 包装 了 一 下 。 第 
9~11 行 导入 了 所 需 的 Python 模块 。 第 15 行 创建 了 一 个 新 的 类 。 第 18~24 行 定义 了 log 文件 
的 文件 名 、 用 户 名 、log 的 等 级 以 及 log 文件 的 格式 。 这 里 要 稍 做 说 明 的 是 ， 在 log 的 格式 
self.formatter 的 最 后 添加 了 一 个 \n。 那 是 因为 在 Windows 下 换行 符号 是 \Nn， 如 果 是 在 Linux 
下 ， 加 \n 就 可 以 了 。mylog.py 这 个 自 建 模块 在 Windows 和 Linux 下 基本 是 通用 的 。 

第 27~36 行 则 定义 了 两 个 loghandler。 一 个 是 将 log 输出 到 文本 中 ， 一 个 是 将 log 输出 到 
终端 方便 调试 。 第 39~52 行 则 按照 logging 模块 定义 了 5 个 log 级 别 。 

主 程序 getCommentInfo.py 也 比较 简单 。 第 10~12 行 还 是 导入 所 需 的 模块 。 在 第 15~22 
行 定义 了 一 个 新 类 。 还 记得 Scrapy 框架 中 的 items.py 吗 ? 主 程序 里 的 Item 类 就 是 仿照 
Scrapy 框架 中 的 items.py 写 的 。 个 人 认为 Scrapy 的 框架 非常 方便 ， 也 很 合理 ，Scrapy 优秀 的 
地 方 就 直接 学 习 借鉴 了 。 也 可 以 完全 参考 Scrapy 的 方法 ， 重 新 建立 一 个 Python 模块 ， 将 这 
个 类 放 到 一 个 单独 的 文件 中 。 

第 25 FONE SME. H 27 FTE MT MIA URL. $ 28 行为 类 创建 了 一 个 
log。 第 29 行 则 定义 了 疏 行 的 页 数 ， 这 里 定义 只 疏 行 了 5 页 ， 实 际 上 有 接近 1000 HNE. An 
有 必要 ， 完 全 可 以 一 网 打 尽 。 第 30~32 行 执行 类 函数 。 

第 34-43 行 定义 了 一 个 getUrls 的 类 函数 。 这 个 函数 的 作用 是 根据 页 面 变化 的 规律 〈 每 向 
后 翻 一 页 ，pn 增加 50) ， 将 所 有 的 URL 装 入 一 个 列表 中 去 ， 供 下 一 个 类 函数 调用 。 

第 45~62 行 定 义 了 一 个 spider 的 类 函数 。 这 个 函数 也 参考 了 Scrapy 的 spider。 与 scrapy 
不 同 的 是 Scrapy 使 用 的 是 XPath 过 滤器 ， 而 这 里 使 用 的 是 bs4 的 BeautifulSoup 过 滤 有 用 数 
据 。 第 50 行使 用 soup.find_all 函数 将 所 有 符合 条 件 的 数据 装 入 了 tagsli 列表 中 。 第 51~61 íF 
使 用 for 函数 遍历 整个 列表 ， 将 有 效 数据 过 滤 出 来 ， 添 加 到 items 列表 中 ， 供 下 一 个 函数 处 
理 。 

第 64~70 行 把 得 到 的 items 列表 写 入 到 最 终 的 数据 保存 文件 “百度 贴吧 _ 权 利 的 游 
戏 .txt” 中 去 。 这 里 要 注意 的 是 第 65 行 ， 因 为 Win7 默认 的 是 GBK 编码 ， 而 文件 名 中 又 含有 
中 文字 符 ， 所 以 只 有 先 用 u 字符 将 字符 串 unicode 化 ， 再 用 encode(*GBK”) 将 整个 字符 串 转换 
成 GBK 编码 。 
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第 72~81 行 完全 可 以 精简 成 一 句 ， 直 接 返 回 urllib2.urlopen(urD).read(0) 就 可 以 了 。 这 里 用 
单独 一 个 函数 是 为 了 以 后 扩充 功能 。 比 如 使 用 proxy 代理 ， 添 加 headers 等 。 这 个 就 有 点 类 似 
于 Scrapy 框架 中 的 中 间 件 。 一 旦 发 现 爬 虫 被 禁止 ， 就 可 以 在 这 个 函数 中 做 出 相应 的 修改 ， 避 上 
开封 锁 。 这 里 要 注意 的 是 需要 将 URL 字符 串 转 换 成 utf8 编码 。 

第 84~86 行 是 _main 函数 ， 实 例 化 GetTiebalnfo 类 。 


6.3.4 Eclipse 调试 


虽然 在 Windows 下 也 可 以 使 用 pdb 模块 对 Python 程序 进行 调试 。Pdb 的 强大 当然 是 无 须 
质疑 ， 但 直观 上 来 说 就 远 远 不 如 Eclipse 了 。 下 面 就 牛刀 小 试 ， 实 验 一 下 Eclipse 的 调试 功 
能 。 

首先 要 做 的 是 在 程序 中 添加 断 点 ， 也 就 是 程序 运行 中 暂停 中 断 的 位 置 。 在 所 需 中 断 行 的 
最 前 方 ， 行 号 的 前 面 空白 处 双击 右键 ， 会 出 现 一 个 绿色 气球 的 图 标 ， 表 明 断 点 已 经 设立 成 
功 。 这 里 只 在 41 行 和 60 行 设置 了 2 个 断 点 ， 如 图 6-40 所 示 。 


EE ONY Om Vl Ul 


国 getCommentinfolog 
» E) getCommentinfo.py 


b @ DAProgram Files\python 
© helloPython 

宣 moive8s4 

窗 qidianBs4 

& 


1D YinyueTai8s4 


items. 
elf jog info(u'ebeanccXs>>nsex..." Xiten.title) 





6-40 Eclipse 设置 断 点 
再 单 击 Eclipse 上 方 菜 单 栏 最 右边 的 仆 虫 图 标 。 进 入 调试 模式 。 单 击 图 标 栏 的 候 虫 图 标 开 
始 调试 。 程 序 运 行 到 断 点 处 会 自动 停止 运行 ， 单 击 图 标 栏 的 箭头 图 标 进行 单 步调 试 。 在 程序 
栏 中 的 箭头 指向 运行 的 位 置 。 可 以 在 变量 标签 中 观察 变量 的 值 。 测 试 完毕 后 可 以 单 击 图 标 栏 
的 停止 图 标 退 出 调试 ， 如 图 6-41 所 示 。 
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jate Search Project Pydev Run Window Help 
el=Rees Se jo-a-eor~ 
Quick Acc 


4 @ baiduBS4 getCommentinfo.py [Python Run] las Value 
4 B getCommentinfo.py + pn str: 50 
d - pid_5996 id 39811672 ns <type st >: [0, '50', 100, ‘15... 


le> [getCommentinfo.py86] == 
devd.py:937] 

le> (pydevd.py:1530] 

nfo, 


- Be: sa up (bs4) a 
a moa = -Miog (mylo “a 


, 
@-exXk& OG RE mae. mero 





图 6-41 Eclipse 调试 
配合 log 模块 ， 即 使 程序 出 现 什么 问题 也 可 以 很 容易 地 找到 出 错 的 位 置 ， 方 便 修 改 。 


G.L bs4 民 虫 实战 二 : 获取 双色 球 中 奖 信息 


在 国内 ， 唯 一 能 合法 暴 富 的 方法 似乎 只 有 彩票 中 奖 了 。 虽 然 人 人 都 知道 中 奖 的 机 率 很 
低 ， 但 希望 总 是 存在 的 。 中 奖 的 号 码 虽然 无 法 直接 推算 出 来 ， 但 根据 概率 计算 将 中 奖 的 概率 
稍微 调 大 点 那 还 是 可 能 的 (据说 所 有 赌场 都 有 这 样 一 条 潜 规 则 ， 不 欢迎 数学 家 进入 赌场 ， 就 
是 为 了 防止 客人 计算 概率 。 电 影 《 决 胜 21 点 》 就 是 根据 真实 事件 改编 ， 而 历史 上 最 出 名 的 因 
概率 计算 被 赌场 禁止 入 场 的 人 是 日 本 的 山本 五 十 六 ) 。 在 进行 概率 计算 前 要 做 的 就 是 收集 数 
据 ， 好 在 中 国 福利 彩票 并 不 禁止 收集 数据 进行 概率 计算 。 如 何 计算 概率 不 是 本 章 的 内 容 ， 本 
章 只 负责 将 数据 收集 后 存 入 到 数据 库 中 。 














6.4.1 目标 分 析 


在 中 彩 网 中 打开 双色 球 的 往 期 中 奖 信息 页 面 ( 这 里 使 用 的 是 Chrome 浏览 器 ， 其 他 的 浏 
览 器 可 能 会 稍 有 区 别 ) 。 网 址 为 http://www.zhew.com/ssq/kaijiangshuju/index.shtml?type=0, 
如 图 6-42 所 示 。 
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中 彩 网 首页 | 网 站 地 图 | 口 手机 中 彩 问 | FAR 





彩票 新 闻 。 机 构 ”专题 报道 双色 球 BaF BER HAR itl 彩民 之 家 站 主 
REAR HR TR BED 试 机 号 全 国 开奖 。 走势 图 ”短信 福彩 公益 AH 
中 彩 视 频 。 直播 。 开奖 视频 时 时 彩 R3 Ghz KE 





SMR 历史 同期 号 查询 


FI HAF BS 











EMER | ALAARA | 出 球 顺 序 传真 | 当期 销量 及 中 奖 情况 | BARNAS | 一 等 奖 中 


福彩 


AZ 


2016-06-30 2016075 
2016-06-28 wn AM MAMABD 
zo6-06-26 2016073 MAAR AR zozo sèns 80 日 
zez 从 从 从 内 内 内 四 me 











2016-06-23 








6-42 ”双色 球 往 期 中 奖 


在 中 奖 信息 表格 上 鼠标 右 击 ， 选 择 弹 出 菜单 中 的 “查看 框架 的 源 代码 ”。 发 现 这 个 框架 
的 数据 来 源 于 kaijiang.zhew.com/zhew/html/ssg/list_1..html, WP 6-43 所 示 。 













ssq/list_1.html 


class="wqhgt "> 
background: url (ht tp://images. zhcw. con/zhcw201 0/kaijiang/zhcw/ssqpd_28. jpg) repeat-x ;"> 


> 开奖 日 期 Mth> 
MAS </ th: 


=" color: F00">— 32 </th> 
“color :#00F" > 二 等 奖 C/thy 


“certer” >2016095¢/t > 
align="center” style="padding-left: 10px :"> 


<en class="rr">01¢/en> 
《em class=" rr">05</en> 


Gem class=" rr">094/ en 





<em>12</em></td> 
><st rong>297, 413, 702¢/strone></tD 


me wy oe DTT Sr ong> 
( 浙 BS 深圳 ..) 
iha 












图 6-43 框架 源 代码 
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然后 再 到 网 页 中 单 击 “ 下 一 页 ”的 链接 ， 再 次 查看 框架 源 代 码 ， 新 的 框架 数据 来 源 是 
kaijiang.zhcw.com/zhcw/html/ssq/list_2.html。 大 致 明白 URL 的 变化 规律 了 ， 再 回头 测试 一 下 
kaijiang.zhcw.com/zhcw/html/ssq/list_l1.html 是 否 正常 ， 返 回 数据 正常 ， 如 图 6-44 所 示 。 





2016-08-16 AAMAROD 
2016-08-14 AADOARA 


2016-08-11 














298,416,216 


回 目 
2016-08-09 202 位 从 作用 用 用 全 29.0255 STA) 7 BB 





2016-08-07 z3 A AMAAAAM vanm ne 228 日 
2016-08-04 z000 从 从 有 由 内 内 四 aws z ) 1 OG 
2016-08-02 z0 AMAA AM 29,232,356 10 48 日 
2016-07-31 z0 从 从 从 有 内 有 四 zx = rm OO 
2016-07-28 z087 MMMM 2,3,90 3 a Oo 








6-44 ”表格 来 源 网 页 


再 来 看 看 如 何 获 取 表 格 中 的 数据 。 任 选 一 个 双色 球 往 期 中 奖 号 码 的 框架 查看 源 代码 ， 这 
里 就 选 末 页 kaijiang.zhcw.com/zhcw/html/ssq/list_100.htm， 如 图 6-45 所 示 。 


© view-source:kaijiang.zhcw.com/zhcw/html/ssq/list_100.html | 


<tr> 
<td ali gn=" cent er”>2003-04-10¢/td> 
<td align="center“ >2003014¢/td 
<td align="center” style="padding-left: 10pe;” 


em class=" rr“>03</en> 


《em class=" rr">08</em> 


<en class=" rr“>31</en> 


<em>02</em></td> 
<td><st rong>12, 476, 130</strong></td. 
<td align="left” style="color:#999; “><strong>0</strong> 


AD 
<td align="center”><strong clas=“re"0/strong></t@ 


* vidthe"16" heite" 








14 <td alime" cent er”>2003013/tD 


图 645 分 析 数 据 
在 做 爬虫 时 ， 遇 到 这 种 表格 形式 的 数据 ， 那 就 最 方便 了 。 因 为 它们 都 有 固定 的 标签 ， 
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以 很 方便 地 获取 数据 。 从 图 6-45 中 可 以 看 出 ， 表 格 中 每 一 行 的 数据 都 包含 在 一 对 <t> 标 签 
内 。 所 以 ， 在 写 爬 虫 时 只 需要 先 将 <te> 标 签 挑选 出 来 ， 然 后 再 到 其 中 过 滤 数 据 就 可 以 了 。 


6.4.2 ”项 目 实施 


【示例 6-5】 还 是 打开 Eclipse， 按 照 上 节 创 建 项 目 、 文 件 的 流程 进行 。 首 先 创建 项 目 
winningNumBS4， 在 项 目 中 创建 PyDev Module 文件 getWinningNum.py， 再 把 上 节 baiduBS4 
项 目 中 使 用 过 的 mylog.py 复制 到 winningNumBS4 项 目 中 ， 以 备 后 期 调用 。 项 目的 主 文件 
getWinningNum.py 的 内 容 如 下 : 
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项 目 中 mylog.py 的 内 容 如 下 : 








[#6 Beautiful Soup MEE 








鼠标 左 键 选取 项 目 文件 getWinningNum.py， 然 后 左 键 单 击 Eclipse 的 运行 图 标 并 复制 ， 
最 终 得 到 结果 如 图 6-46 所 示 。 





2 PyDev Package... £3 ZSEE 。 同 getWinningNum (E) mylog D RERot X | 
egli ~ 1 2016-08-16 2016095 12 297,413,702 

a @ winningNumBs4 22016-08-14 2016094 10 324,311,584 
eg 32016-08-11 2016093 69 298,416,216 
getWinningNum.log 4 2016-08-29 2016092 @6 299,992,386 

> By getWinningNum, 5 2016-08-07 2016091 07 329,710,234 

> apa ry 6 2016-08-84 2016090 07 294,008,068 

P) mylog.py 7 2016-08-02 2016089 68 288,232,376 

8 2016-07-31 2016088 15 320,354,148 

双色 球 bt 9 2016-07-28 2016087 12 288,396,896 

> @ DiProgram Files\python | 19 2916-07-26 2016086 65 286,788,850 


16 319,888,112 
全 baiduBss 12 2016-@7-21 2016084 288,778,286 
Ü helloPython 13 2016-07-19 2016083 291,921,542 
i 14 2016-07-17 2016082 323,658,370 
15 2016-07-14 2016081 288,505,018 
G qidian8S4 16 2016-07-12 2016080 288,372,472 
Ü test 17 2016-07-10 2016079 
G YinyueTai8S4 





ry 


ged 


322,821,956 
296,681,554 
294,629,008 
331,977,974 
295,574,016 


eauvanbugs 


21 2016-06-30 2016075 
22 2016-06-28 2016074 297,584,738 
23 2016-06-26 2016073 327,032,018 

« » 


© Console RPunt ë E XRO ale ae Ene no 
<terminated> E:\save\syne\code\crawler\bs4Project\winningNumBS4\getWinningNum.py 


SRSSASSSLLASSLSSSLSESRRS 
z 


FS8882858R65RRSS8SS08083S8 
td 
GRERSRERRGRESEERSBRSSEE 
SSBSSRERSSSRR HERERO RRSS 
BRSKBBSRESERABRERREBSER 


Ease 


we 
R 

















6-46 run getWinningNum.py 


IRA KERE RERET txt 文件 中 。winningNumBS4 项 目 暂时 告 一 段落 ， 下 节 
继续 挖掘 。 


6.4.3 ”保存 结果 到 Excel 
在 Windows 下 ， 最 常见 的 数据 保存 工具 是 Excel。 下 面 尝试 将 结果 保存 到 Excel 中 去 。 
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在 Python 的 标准 库 中 ， 并 没有 直接 操作 Excel 的 模块 。 好 在 还 有 永远 不 会 让 人 失望 的 第 
三 方 库 。 百 度 一 下 最 流行 的 操作 Excel 的 Python 库 就 是 xlrd 和 xlwt 了 。 其 中 xlrd 负责 从 
Excel 中 读 取 数据 ， 而 xlwt 则 是 将 数据 写 入 到 Excel 中 去 。 这 里 我 们 使 用 xlwt 模块 。 

从 第 三 方 库 中 安装 xlwt 模块 很 简单 ， 一 条 命令 足 侨 。 执 行 命令 : 


L pip instali ae 
执行 结果 如 图 6-47 所 示 。 


保留 所 有 权利 。 


-py3-none-any.whl ¢99kB> 


nstalling collected packages: xlwt 
uccessfully installed xlwt-1.1.2 


? Wsers\king> 





图 6-47 ”安装 xlwt 模块 
至 此 xlwt 模块 已 安装 完毕 。xlwt 模块 使 用 很 简单 。 


【示例 6-6】 先 写 一 个 简单 的 Python 程序 来 测试 一 下 。 在 Eclipse 中 创建 一 个 test 项 目 ， 
并 在 项 目 中 创建 一 个 名 为 excelWrite.py 的 PyDev Module 文件 。excelWrite.py 的 内 容 如 下 : 





很 简单 的 一 个 程序 。 首 先 使 用 xlwt Workbook 函数 创建 一 个 工作 敌 ， 如 果 有 中 文 最 好 是 


215 


Python MERKAR 


输入 中 文 的 字符 编码 。 然 后 在 工作 短 里 创建 一 个 表 ， 再 就 是 往 表 里 填 入 数据 了 。 逻 辑 简 单 ， 
结构 也 很 简单 。 最 后 就 是 保存 工作 短 到 文件 中 去 。 
单 击 Eclipse 的 运行 图 标 ， 得 到 的 结果 如 图 6-48 所 示 。 











b @ DAProgram Files\python 
a @ winningNumBS4 _ 
getWinningNum.log 
D B getWinningNum.py A B | 
b B mylog.py 1 9 
中 文 测试 








双色 球 .bt 
b eB D:\Program Files\python 














6-48 测试 xlwt 模块 


根据 getWinningNum.log 的 实际 情况 (也 就 是 程序 输出 数据 的 形式 ) ， 将 excelWrite.py 
稍 做 变化 就 可 以 用 了 。 回 到 winningNumBS4 项 目下 ,创建 一 个 新 的 PyDev Module 文件 
Save2excel.py、 save2excel.py 和 getWinningNum.py 是 在 同一 目录 下 的 〈 这 点 很 重要 ， 如 果 不 
在 同一 目录 下 ，getWinningNum.py 想 把 save2excel.py 当 模块 使 用 会 费 很 多 功夫 ) 。 


【示例 6-7】Sava2excel.py 的 内 容 如 下 : 
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【示例 6-8】 将 原来 的 getWinningNum.py 稍 做 修改 ， 修 改 后 的 getWinningNum.py 的 内 容 


如 下 : 








Python WERS 
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DEI: ENS 





实际 上 就 是 导入 了 save2excel 模块 后 再 在 _init 函数 中 添加 了 3 47, ik save2excel 处 理 
了 一 下 息 取 的 数据 而 已 。 
单 击 Eclipse 图 标 栏 的 运行 图 标 ， 最 终 得 到 的 结果 如 图 6-49 所 示 。 














会 YinyueTaiBs4 














39:40,186 INFO BREm7:2015-06-09 zetaz 


39:40,187 INFO 08-06 netaz 
< 








图 6-49 ”保存 结果 到 excel 
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至 此 ，winningNumBS4 项 目 己 全 部 完成 。 这 里 要 注意 的 是 ， 不 要 频繁 地 跑 这 个 爬虫 ,在 
一 定 的 时 间 内 多 次 息 取 会 引起 网 站 反 候 虫 人 员 的 注意 。 得 到 数据 就 够 了 ， 没 必要 耗费 网 站 的 


6.4.4 代码 分 析 

winningNumBS4 项 目 中 只 有 3 个 Python 文件 ， 分 别 是 getWinningNum.py, save2excel.py 
和 mylog.py。 其 中 mylog.py 和 上 个 项 目 中 的 mylog.py 是 一 样 的 (实际 上 所 有 的 项 目 中 使 用 
的 都 是 同一 个 mylogpy) ， 这 个 可 以 略 过 。 主 要 是 看 主 文件 getWinningNum.py 和 
Save2excel.py。 

先 看 getWinningNum.py 文件 。 第 10~14 行 是 导入 程序 所 需 的 模块 。 其 中 包含 了 Python 
标准 模块 和 自 定义 模块 。 顺 便 演示 了 导入 模块 的 几 种 方式 。 

第 17~29 行 定义 了 一 个 类 。 这 个 类 包含 了 获取 数据 的 所 有 项 。 这 种 写法 借鉴 了 Scrapy 的 
items 的 写法 。 第 31~105 行 定 义 的 模块 负责 获取 数据 和 保存 数据 。 其 中 34~42 行 是 类 的 解析 
函数 (Python 是 没有 解析 函数 这 个 概念 的 ， 但 _init_ 函数 所 起 的 作用 基本 上 就 是 解析 函数 
T) 。 当 类 实例 化 时 就 自动 运行 _init_ 函数 。 

第 45~56 行 的 getUrls 函数 作用 就 是 从 网 站 中 获取 所 有 需要 有 息 取 的 网 页 的 URL， 然 后 将 
这 些 url 加 入 到 urls 列表 中 去 ， 以 备 后面 的 函数 调用 。 第 58~67 行 getResponseConent 函数 作 
用 就 是 从 一 个 url 中 获取 数据 。 这 个 函数 可 以 用 一 句 话 代替 ， 之 所 以 写成 函数 是 为 了 加 入 
headers 和 proxy 方便 。 

第 70~97 行 是 使 用 息 虫 仆 取 数据 ， 然 后 将 仆 取 的 数据 保存 到 items 列表 中 供 后 面 的 函数 
调用 。 第 99~105 行 pipelines 函数 将 items 列表 中 的 数据 写 入 txt 文件 中 。 那 么 将 数据 写 入 
Excel 是 哪个 函数 呢 ? 是 在 第 41 íT, M_init_ 函数 中 调用 了 save2excel 模块 中 的 
SaveBallDate 函数 。 

最 后 的 第 108~109 行 是 主 函 数 ， 它 将 实例 化 GetDoubleColorBallNumber 类 。 使 
GetDoubleColorBallNumber 类 的 _init ”函数 自动 运行 。 

至 于 save2excel.py 就 比较 简单 了 。 第 9 行 导 入 了 xlwt 模块 。 第 13~14 行 初始 化 了 类 变 
量 ， 调 用 类 函数 。 第 17~49 行 就 是 很 简单 地 遍历 items 列表 ， 然 后 将 列表 中 的 数据 保存 到 
Excel 中 去 。 稍 微 要 注意 的 是 第 18 行 ， 因 为 是 Windows 系统 ， 默 认 使 用 GBK 字符 编码 。 如 
果 不 希 望 中 文 文件 名 出 现 乱 码 ， 那 就 将 含有 中 文 的 文件 名 转换 成 GBK 编码 。 


Fy p= Ay aie 

6.5 bs4 ERREZ : 获取 起 点 小 说 信息 
现在 娱乐 消费 好 贵 。 最 便宜 最 方便 的 娱乐 消费 莫 过 于 在 网 上 看 小 说 了 网游 还 需要 充 

值 ， 看 电影 一 次 至 少 两 小 时 ) ， 看 小 说 就 绕 不 开 原 创 中 文 小 说 网 站 一 一 起 点 中 文 。 笔 者 看 小 

说 不 喜欢 那 种 看 一 章 等 一 章 的 看 法 ， 说 不 定 一 不 小 心 小 说 就 天 折 了 ， 还 是 直接 看 那些 完 本 小 
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说 比较 爽快 。 本 节 将 使 用 bs4 扑 虫 获取 起 点 中 文 网 所 有 的 完 本 小 说 信息 ， 并 将 其 保存 到 
MySQL 中 去 。 


6.5.1 目标 分 析 


打开 起 点 中 文 网 ， 搜 索 所 有 的 完 本 小 说 。 将 打开 网 页 http://all.qidian.com/Book/BookStore. 
aspx?Channelld=- 1 &SubCategoryld=-1&Tag=all&Size=-1& Action=5&Orderld=6&P=all& PageIndex= 
1&update=-1&Vip=-1&Boutique=-1&SignStatus=-1， 在 网 页 中 将 写作 进度 改 成 “已 经 完 本 ”， 
其 他 的 选项 都 选择 “不 限 ”或 者 “默认 ”， 如 图 6-50 所 示 。 


作品 大 类 : gs £0) AO Re tit 都 市 历史 军事 游戏 体育 科幻 灵异 二 次 元 图 文 职场 文学 女生 ER 


作品 标签: Bi] Wl Z% HI RE 明星 WHE 杀手 老师 FE Et BH SB BE 
全 部 显示 
作品 字数 : AUT WAR 50-100 。 100 万 -200 万 200 万 以 上 


Sree: 。 不 限 。 新 书 上 传 情节 展开 mesz mee [ET] 

went: [OT] 会 员 周 点 击 。 会 员 月 点 击 eaoat BER ARF SHH Soh She BAMA 。 书 友 月 点 击 PASS 
wR) =BA taa +AA -AA 

HRFBS: f ARJA I c] w æ P) e O00 mI D) K L w w (o) cP) we) Cr mm oO o C2] 其 他 
RCR: | 只 看 免费 作品 CMR COMER M 


6-50 选择 小 说 类 型 


再 来 看 看 URL， 这 个 参数 似乎 太 多 了 点 。 仔 细 观 察 一 下 ， 这 个 参数 可 能 跟 小 说 的 类 型 选 
择 有 关系 。 每 次 削减 一 个 参数 试 试 页 面 是 否 有 变化 ， 最 后 发 现 URL 为 
http://all.qidian.com/Book/BookStore.aspx?&Tag=all&Action=5&Orderld=6&P=all&PagelIndex=1 
时 页 面 是 不 变 的 ， 可 以 正常 使 用 。 

下 面 将 这 个 URL 中 的 PageIndex=l 改 成 PageIndex=2 试 试 。 浏 览 器 中 打开 
http://all.qidian.com/Book/BookStore.aspx?& Tag=all&A ction=5& Orderld=6& P=all&PageIndex=2, tt 
MBA a, GRIER, MAER urls 列表 规律 就 明了 了 ， 就 是 修改 
PageIndex 参数 而 已 。 

总 共 需 要 疏 取 多 少 页 呢 ? 查看 页 面 中 表格 下 方 的 页 面 选择 位 置 ， 共 有 144 页 ， 如 图 6-51 
所 示 。 

(RSMo) 红 印 S z 16-08-12 11:35 
ROWERS LESR 第 十 五 章 多 重 人 格 分 列 症 50283 16-08-19 17:15 
[科幻 /时 空 穿 模 ] 穿梭 万 办 拯救 宇宙 联邦 完 本 已 计 114461 WERB 16-09-10 09:34 


[都 市 / 异 术 超 能 ] 校园 正太 高 手 完 本 感言 ! vP] 3513327 日 月 当 歌 16-08-17 09:55 


图 6-51 总 页 数 
在 网 页 的 任意 空白 处 右 击 ， 选 择 弹出 菜单 中 的 “查看 网 页 源 代 码 ”， 找 到 表格 的 开头 部 
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分 ， 如 图 6-52 所 示 。 


Sera 列表 开始 《![endif] 一 > 
class=" sgz 101¢/div><div class=" sva“ >[<a href="http://all. gidi an, com/Book/BookSt ore. aspx ChamelId=4” 
="http://all. qidian. con/Book/BookStore. : E class wi ORREN] div><div 


REV Capana 
hui2“》 第 三 十 五 章 尾声 /ay 








class=" oot" Xap class=" swht "><a href="http: //www, gidi an. con/Book/ 1003682218. aspx” target="_l 
St// edie coW BockReader/8UUQocydnSPOVUeyz SP dUQ2, jbpppkBRROVOBDF lr! st 






ais <div class=" swe" )29618¢/div><div class=" swd' <a href="http://ne. qidian. con/aut] target="_blank” 
pails black" “AF H4</a></div> <div clas=“swe">16-08-16 18:4</div> Ydi v class=" swz’ >102</div><div 
class=" sva" > [<a href="http://all. qidian. con/Book/BookStore. aspx Charnel Id=21" class=" hui2">: 

“http: //al1. qidian. con/Book/ BookStore. asp Charnel Id-218SubCategoryld-8" class=" mi2 REMI 01 äivdiv class="svb"><span 国 








anyo </spand<a 


Cee tae ee oc classe rede href="http://ne. qidian. con/ author Index. aspe?i d=3887914" 
PPAR </a></div> div clas="swe">16-08-15 12:43/div> </div><div class=" sw2" ><div 
' >103¢/div><div class=" swa") [<a href="http://all. qidian. con/Book/ BookStore. erkene yi class= "hui2“》 二 次 元 9 ay/Ka 
href="http://al1. qidian. con/Book/BockSt ore, aspe Charnel Id=124SutCategoryId281" _claze="hni2">#1£ BA /@]</div><div clas="swb"><span 
class=" swbt"><a href="http://www. qidi an. com/Book/ 3676971. aspx” target="_blank”. Sms Lmao </spard<a 
href="http://read. qidian. con/BookReader/bKeiJULyIH11, 1gzrGq8pry5s5iq0oQvLQ2 aspx” target="_blank” clas="hui2 > 作品 相关 MBER </div> 
<div clas="swe">82090</div><div clas="swd"><a href="http://ne. qidian. coM author Index. asp?id-5122195" target="_blank” class="black” tëtë 
ghos. .. (/a/div> <div class=" swe" 16-08-14 21:01¢/div> </div><div class=" swl"><div class=" swz'>104¢/div>Giv class=" sva") [<a 
href="http://all. qidian. com/Book/BookStore. aspx CharnelId=9° class="hui2" 科幻 人 /a/ <a href="http://all. qidian. can/Book/BookSt ore, asp? 
Channel Id=94SubCategoryId=263" — class="hui2" > 未 世 危机 </a)] ¢/div> <div class=" sb" <span class=" swbt“><a 
href="http://www. qidian. con/Book/ 1003742452, aspx” target="_blank” > 来世 之 灭 尸 系统 c/a》 /pm<a 


图 6-52 表格 源码 
表格 的 所 有 行 不 是 以 <div class="sw2"> 开 头 ， 就 是 以 <div class="swl"> 开 头 。 没 问题 ， 只 
怕 没 有 规律 的 ， 不 怕 规 律 多 的 。 已 知 url 的 数量 和 规律 ， 也 知道 了 寻找 表格 数据 的 方法 。 这 
个 疏 虫 已 经 完成 一 半 了 ， 后 面 纯粹 就 是 编程 的 问题 ， 那 就 简单 了 。 











we /Do 0ER DE so aa E. 








6.5.2 项目 实施 


打开 Eclipse ， 创 建 项 目 qidianBS4 ， 在 项 目 中 创建 PyDev Module 文件 
completeBook.py。 把 上 节 winningNumBS4 项 目 中 使 用 过 的 mylog.py 复制 到 qidianBS4 项 目 
中 ， 以 备 后 期 调用 。 


【示例 6-9】 项 目的 主 文件 completeBook.py 的 内 容 如 下 : 
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主 程序 部 分 已 经 完成 了 。 


6.5.3 ”保存 结果 到 MySQL 


因为 最 后 还 需要 将 结果 保存 到 MySQL 中 去 ， 所 以 还 得 添加 一 个 自 定 义 的 模块 〈 也 就 是 
一 个 自 建 Python 程序 ) 。 


【示例 6-10] Æ qidianBS4 项 目下 ，completeBook.py 的 同 级 目录 中 创建 一 个 PyDev 
Module 文件 save2mysql.py。save2mysql.py 的 内 容 如 下 : 
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至 此 ， 该 项 目 中 的 所 有 代码 已 经 完成 了 。 因 为 要 将 数据 保存 到 远程 MySQL 服务 器 ， 首 
先 得 在 MySQL 服务 器 上 创建 好 数据 库 和 表 。 在 第 5 章 Scrapy 项 目 中 就 创建 过 一 个 MySQL 
服务 器 ， 并 分 别 在 Windows 和 Linux 系统 上 安装 了 Python 中 支持 MySQL 的 模块 
MySQLdb。 这 里 就 直接 使 用 现成 的 MySQL 服务 器 就 可 以 了 。 与 Scrapy 项 目 不 同 的 是 ， 本 节 
存储 数据 到 MySQL 服务 器 是 远程 存储 ，Scrapy 项 目的 存储 是 本 地 存储 。 本 机 与 MySQL 服 


务 器 的 关系 如 图 6-53 所 示 。 


1P:192.168.299 1P:192.168.2.80 
PC Linux MySQL Server 


图 6-53 ”网络 关系 图 


使 用 putty 登录 到 Linux。 进 入 MySQL 为 bs4 项 目 创建 一 个 数据 库 ， 并 为 qidianBS4 项 
目 创建 一 个 表 。 
在 Linux 系统 下 登录 到 MySQL 后 ， 执 行 命令 : 





创建 一 个 名 为 bs4DB 的 数据 库 ， 并 在 数据 库 中 建立 一 个 qiDianBooks 的 表 ， 所 有 编码 都 
使 用 utf8 编码 ， 执 行 结果 如 图 6-54 所 示 。 
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[Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


[Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


7 or '\h' for help. Type '\c' to clear the current input statement. 


Imysql>|CREATE DATABASE bs4DB CHARACTER SET 'utf8' COLLATE 'utf8 general Ci'; 





6-54 ”创建 数据 库 和 表 
随后 为 登录 用 户 分 配 权限 ， 执 行 命令 : 


执行 结果 如 图 6-55 所 示 。 


mysql> 
mysql> GRANT all privileges ON bs4DB.* to crawiUSER@all IDENTIFIED BY 'crawl123' 


[Query OK, 0 rows affected (0.00 sec) 
mysql> GRANT all privileges ON bs4DB.* to crawlUSER@localhost IDENTIFIED BY ‘cra 


[Query OK, 0 rows affected (0.00 sec) 


Imysql> GRANT all privileges ON bs4DB.* to crawlUSER@192.168.2.99 IDENTIFIED BY ' 
lcrawl123"; 
Query OK, 0 rows affected (0.00 sec) 





6-55 MySQL 用 户 权限 
这 三 条 命令 的 作用 分 别 是 : 允许 crawlUSER 用 户 远 程 登录 ， 人 允许 crawlUSER 用 户 本 地 
登录 ， 人 允许 crawlUSER 从 192.168.2.99 这 个 IP 登录 。 
这 里 需要 说 明 的 是 ，crawlUSER 这 个 用 户 在 Scrapy 项 目 中 已 经 创建 过 了 ， 如 果 没 有 创建 
这 个 用 户 ， 则 需要 在 MySQL 中 执行 命令 : 
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MySQL 服务 器 已 经 准备 好 了 ， 可 以 运行 程序 了 。 单 击 Eclipse 图 标 栏 上 的 运行 图 标 ， 执 
行 该 项 目 ， 得 到 的 结果 如 图 6-56 所 示 。 


Quick Access 


|818 E 


iln iE EA B geste 名 xd 
1 run time: 2016-08-17 20:16:16 
2[een/eenses) s2 sza 
3 [+04/a Masza] suse 
4 [sues] 
5 [eme/es ter] 时间 
6 ([8en/amammc) aut 773861 
了 [ste/sanses] ae 218772 
S[ume/seneen) asau Cad) 

9 (se0/sesers) sessu marye 1159573 
10 [ase/azsens] seanza 645131 
11 [ene/ati zene) meruiiessss aSERESeerT 
12 [(Nwe/NmeRes)]) ettimenarnes 1208686 
13 (Nee/ReeRes)] s7 szem | 601608 


1292425 
3305823 
s~ Runes ecAZnee 


16-08-17 18:35 
16-08-17 18:00 
97083 16-08-17 15:20 p 
2066407 16-08-17 14:22 ® 
16-08-17 13:19 aes 
16-08-17 09:54 aaceneee 
16-08-17 03:10 apaa 
16-08-16 23:11 nzi 
16-08-16 22:01 aszaza 
142200 16-0 
16-08-17 10:03 nes 
16-08-17 09:51 mase 


a @ qidianBS4 a 
B completeBook.log 
B) completeBook.py 
B mylog.py 
P) save2mysql.py 
D 起 点 完 本 小 说 bt 
@ D:\Program Files\python 
GW baiduBs4 
© helloPython 


1070333 





6-56 run completeBook.py 


保存 到 本 地 的 文件 内 容 有 乱码 ， 是 不 是 ? 没关系， 用 Windows 自 带 的 记事 本 打开 就 没有 
了 ， 只 是 编码 问题 。 再 来 看 看 保存 到 远程 的 MySQL。 使 用 pytty 登录 到 Linux， 连 接 到 
MySQL 服务 器 后 ， 在 MySQL 里 执行 命令 : 


use bs4DB; 
select * from qiDianBooks; 


执行 的 结果 如 图 6-57 所 示 。 


1 8572 16-06-28 14:28 | 
{武侠 /传统 武侠 ] 1 Kees 


yangeh... 
12388 | 


1 6519 16-06-28 14:28 
【玄幻 /东方 玄幻 ] 1 另类 

1 88016 16-07-12 13:56 
[都 市 /都 市 生活 ] 1 血色 婚纱 


1 7320 16-06-28 14:28 
[都 市 /青春 校园 ) 

1 5398 
[武侠 /武侠 幻想 ] 


1 792 
{职场 /娱乐 明星 ] 
1 1799849 


12389 
12390 


12391 
16-06-28 14:28 

1 华山 论 博 
16-08-03 17:56 


1 大 部 传说 


12392 


12393 


16-07-18 15:31 


1 玄 宁 青 风 
1 末 达 威 


1 gikedsen” 


1 柳 三 变 1 
1 枫 枞 之 心 
1 RA 


12394 


12395 


[武侠 /武侠 幻想 ] 
1 2045 
ee 
19017 
{科幻 /未 来 世界 
1 43686 





1 hee 


16- 06-28 14:28 | SS 
1 BESKR 
16-06-28 14:28 | 龙 神 将 .QD 
1 风 ( 新 的 故事 ) 
16-06-28 14:28 | 龙 神 将 .QD 


6-57 MySQL 保存 结果 
保存 的 结果 是 12396 条 ， 而 网 站 上 显示 所 有 的 全 本 小 说 是 14380 本 ， 大 约 有 2000 本 小 说 
没有 被 录 上 。 稍 微 修改 一 下 程序 ， 可 以 从 log 中 得 到 哪些 小 说 没有 被 朴 取 。 笔 者 大 致 检查 了 
一 下 ， 有 一 些小 说 记录 的 标签 与 笔者 设置 的 标签 不 太一 样 ， 如 果 需 要 读 取 完 整 的 列表 请 读者 
自行 修改 一 下 。 另 外 这 个 程序 的 瑕 症 在 于 MySQL 保存 数据 时 使 用 的 都 是 char 类 型 ， 如 果 要 
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追求 完美 ， 可 以 将 日 期 改 成 Date 类 型 ， 将 字数 改 成 nt 类 型 等 。 


6.5.4 ”代码 分 析 


项 目 qidianBS4 中 有 3 个 Python 程序 ， 其 中 mylog.py 无 须 再 解释 了 ， 这 里 需要 分 析 的 只 
有 completeBook.py 和 save2mysql.py。 

completeBook.py 中 第 9~15 行 是 导入 需要 的 模块 。 第 18~24 行 是 仿照 Scrapy 建立 的 一 个 
item 类 。 第 27~90 行 是 自 定义 类 GetBookName， 用 于 从 起 点 中 文 网 站 获取 全 本 小 说 的 信息 。 

第 27~37 行 是 GetBookName 类 的 “解析 函数 ”。 第 33 行 调 用 了 spider 类 函数 将 所 有 的 
数据 保存 到 类 变量 selfbooksList 列表 中 。 第 34 和 36 行 分 别 调用 了 selfpipelines 函数 和 
SavebookData 函数 ， 将 所 疏 取 的 数据 保存 到 txt 文件 和 MySQL 远程 服务 器 中 。 

第 40~49 行 是 从 网 站 起 始 页 面 中 获取 了 总 共 的 页 数 。 因 为 这 个 总 页 数 并 不 是 单独 包含 在 
某 个 标签 内 的 ， 所 以 这 里 使 用 re 模块 将 这 个 页 数 过 滤 出 来 。 

第 52~59 行 的 getResponseContent 函数 还 是 用 于 返回 从 URL 中 得 到 的 原始 数据 。 

第 62~79 行 是 使 用 bs4 模块 从 原始 数据 中 过 滤 出 所 需要 的 数据 ， 然 后 将 数据 保存 到 了 
selfbooksList 列表 中 去 。 

第 82~90 行 的 pipelines 函数 将 self.bookList 列表 中 的 数据 保存 到 txt 文件 。 

第 92~93 行 是 _main_ 程序， 只 有 一 条 命令 ， 作 用 是 实例 化 GetBookName 类 。 





6.6 bs4 ERZEN : 获取 电影 信息 


这 一 节 的 内 容 还 是 跟 娱 乐 有 关 ， 从 网 络 上 获取 电影 。 影 视 网 站 会 每 天 都 有 新 的 电影 上 
架 ， 限 于 页 面 的 篇 幅 ， 每 页 显示 的 电影 有 限 。 如 果 想 找 一 部 心仪 的 电影 丽 怕 得 翻 遍 整个 网 
站 ， 当 然 也 可 以 使 用 百度 的 高 级 搜索 和 网 站 自身 的 搜索 ， 但 最 方便 的 还 是 自己 写 个 仆 虫 ， 每 
天 让 它 爬 一 次 ， 就 可 以 知道 有 什么 新 电影 上 架 了 。 


6.6.1 目标 分 析 


这 次 候 虫 的 目标 网 站 是 http:/dianying.2345.com/， 疏 虫 的 搜索 目标 仅 限 于 今年 的 电影 。 
在 网 站 打开 搜索 ， 在 年 代 中 选择 2016， 得 到 的 结果 如 图 6-58 所 示 。 
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图 6-58 ”爬虫 起 始 页 


从 图 片上 看 ， 这 个 站 点 和 上 节 的 起 点 找 书 没什么 区 别 啊 ? 的 确 如 此 ， 从 爬虫 上 看 ， 除 了 
疏 取 的 规则 有 所 不 同 外 ， 这 个 爬 虫 和 起 点 网 站 的 爬虫 区 别 不 大 。 这 节 的 重点 不 在 于 怜 虫 ， 而 
在 于 获取 页 面 的 过 程 ， 这 个 暂且 先 放 下 ， 继 续 爬 虫 过 程 。 

在 页 面 的 下 方 单 击 “ 下 一 页 ”， 发 现 URL 变 成 了 http://dianying.2345.com/list/----2016--- 
2.html。 测 试 一 下 http://dianying.2345.com/list/----2016---1.html， 可 以 正常 返回 ，urls 的 变化 规 
律 找到 了 。 再 看 看 总 共有 多 少 页 呢 ? 如 图 6-59 所 示 。 


"J ss 








图 6-59 总 页 数 


总 页 数 也 找到 了 ， 最 后 只 需要 找到 爬虫 的 过 滤 规 则 就 可 以 了 。 单 击 页 面 空 白 处 ， 在 弹出 
菜单 中 选择 “查看 网 页 源 代 码 ” 选 项 ， 查 看 页 面 源 代码 ， 如 图 6-60 所 示 。 
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ormouseout="this, className=’ pic’ :“> 


<span class="sTit"><a title=" 致 青春 原来 你 还 在 这 里 ”target=”_blark”href="http://diarying. 2345. con/det ail/ 16858 
ajax8 王 "ys_dy_list_title_168580"> 致 青春 : 原来 你 还 在 好 8230;</a>《/spar> 
<span class=" Des ÈM: mla href="http://dianying. 2345. con/list/——wuyifar-—.html” title=’ 刘亦菲 电影 ”0 4 
ajax8"ys_dy_list_actor_168580" >3JRE</a></em>anbsp; <em><a href="http://di anying. 245. con/list/-—liuyifei—. html “| 
target="_blank” dat a-ajax83="ys_dy_list_actor_168580" >SRIRIL</a></em></span> 
<li> 








图 6-60 页面 源 代 码 


直接 找 <li> 标 签 就 可 以 了 。 先 找 <ul> 标 签 ， 然 后 再 嵌 套 查找 <li> 标 签 也 行 ， 更 加 精确 。 现 
在 爬虫 所 有 的 要 素 都 已 经 完备 了 ， 可 以 构造 息 虫 了 。 


6.6.2 项目 实施 


在 Eclipse 中 创建 新 项 目 movieBS4， 然 后 在 项 目 中 创建 新 的 PyDev Module 文件 
get2016movie.py， 再 将 上 面 几 节 都 用 到 过 的 mylog.py 复制 到 movieBS4 项 目下 。mylog.py 还 
是 直接 略 过 ， 主 要 是 get2016movie.py。 


【示例 6-11】get2016movie.py 的 内 容 如 下 : 
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单 击 Eclipse 图 标 栏 的 运行 图 标 ， 顺 利 获 取 了 所 需 的 数据 ， 如 图 6-61 所 示 。 














这 个 候 虫 做 到 这 里 就 可 以 结束 了 。 可 这 跟 上 节 扑 起 点 中 文 网 站 的 候 虫 太 相似 了 ， 根 本 没 
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必要 重复 做 一 种 爬虫 吧 。 


6.6.3 bs4 KIER 

HEMARA, A EAM SS A Hy a SH Hh MH TTI. TB RIE 
不 好 被 封锁 了 怎么 办 ? 最 简单 的 方法 当然 是 换个 IP AEE, UR AE BLAS AER, f 
单 ， 换 个 headers WLAT (AMHR VAM user-agent 都 比较 特别 ， 很 容易 被 反 息 虫 程序 找 
出 来 ) 。 还 记得 每 个 项 目 中 都 有 的 getResponseContent 函数 吗 ? 本 来 只 需要 一 行 就 能 解决 的 
问题 ， 每 次 都 把 它 扩展 成 了 一 个 函数 ， 就 是 在 这 个 时 候 用 的 。 


【示例 6-12】 将 getResponseConteng 函数 修改 一 下 ， 最 终 的 get2016movie.py 的 内 容 如 下 : 
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好 了 ， 这 样 再 也 不 怕 被 网 站 封锁 了 。 封 锁 一 次 ， 大 不 了 再 换个 代理 而 已 ， 简 简单 单 解决 
问题 。 


6.6.4 ”代码 分 析 

本 节 的 代码 与 上 节 的 起 点 网 站 爬虫 很 相似 ， 这 里 就 不 详细 解析 了 ， 只 分 析 一 下 其 中 的 不 
同 之 处 。 第 一 个 不 同 之 处 在 于 模块 的 导入 ， 本 节 的 get2016movie.py 导入 了 codecs 模块 。 这 
个 模块 可 以 选择 输入 字符 的 编码 。 之 前 的 程序 在 写 入 txt 时 都 需要 将 字符 串 的 编码 转换 成 
utf8。 这 里 只 需要 用 codecs.open(filename,“w*,，“utf8”) 打 开 文件 就 可 以 了 。 后 面 往 句柄 中 输入 
的 字符 串 都 会 自动 保存 为 utf8 的 编码 。 

第 二 个 不 同 就 是 getResponseContent 函数 了 。 本 节 在 getResponseContent 函数 中 添加 了 一 
个 浏览 器 的 headers 和 一 个 经 过 验证 、 可 以 使 用 的 proxy， 解 除了 网 站 反扑 虫 程序 的 封锁 。 但 
这 种 反 息 虫 很 被 动 ， 只 有 被 封锁 了 才 会 解除 封锁 ， 而 不 能 主动 避免 反 仆 虫 程序 的 封锁 。 
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bs4 URSA : 获取 音 悦 台 榜 单 


ERE Je NR, ABE MYER. E Scrapy 里 曾 提 过 反 息 虫 的 运行 机 制 ， 基 本 上 就 是 
通过 IP, headers 来 锁定 爬虫 用 户 ， 然 后 进行 封锁 〈 用 验证 码 、 验 证 图 案 的 不 在 讨论 范围 
中 ) 。 前 面 的 Scrapy 使 用 的 是 随机 跳 转 proxy 和 headers 的 方法 对 付 反 息 虫 。 这 里 也 是 如 此 
〈 反 反 疏 虫 的 手段 远 不 止 这 些 ， 比 如 使 用 专门 网 站 爬虫 、 分 布 式 爬 虫 都 可 以 。 个 人 用 户 没 什 
么 特殊 要 求 ， 做 到 这 一 步 就 差不多 了 ) 。 





@ Z 





6.7.1 目标 分 析 


本 节 将 使 用 随机 proxy 和 headers 主动 抵抗 反 爬 虫 。 打 开 www.yinyuetai.com 网 站 ， 本 节 
疏 虫 的 目的 是 爬 取 音 悦 台 网 站 公布 的 MV 榜 单 。 单 击 网 站 最 上 方 的 “V 榜 ”， 从 弹出 菜单 中 
选取 “MV 作品 榜 ” 选 项 ， 打 开 了 音乐 V 榜 。 以 内 地 篇 为 例 ， 网 站 排列 除了 内 地 MV 音乐 榜 
的 前 50 名 ， 使 用 了 3 个 网 页 。 这 3 个 页 面 的 网 址 分 别 为 http:/vchart.yinyuetai.com/vchart/trends? 
area=ML&page=1, http://vchart.yinyuetai.com/vchart/trends?area=ML&page=2, http://vchart.yinyuetai. 
com/vchart/trends?area=ML&page=3， 如 图 6-62 所 示 。 














K BIRNIE LEA A MEEDIA 
A 








图 6-62 音 悦 台 榜 单 


看 看 其 他 几 个 V 榜 中 的 地 区 代码 ， 分 别 是 HT、US、KR 和 JP, Urls 的 规则 很 明了 了 。 
再 来 看 看 爬虫 的 抓 取 规则 。 在 网 页 的 任意 空白 处 右 击 ， 选 择 弹出 菜单 中 的 “查看 网 页 源 代 
码 ” 项 ， 打 开 页 面 源 代码 页 面 ， 如 图 6-63 所 示 。 
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© 2 @ [D view-source-vchartyinyuetai.com/vchart/trends?area=HT 











<div clas="bo-nask’ 
Sa 


a> 


Span clann mid orania, tiie MARERE dx s-video ide" 2646004 
style=" 


displays none;"> Vap: 
</div> 


<div clas="into"> 
> <a target="_blark” href=” kttp://v. yinyuet ai. com/video/2646505"> 终 于 BA ME/a 
em 
印 chas="ce" Xe/eay 
<a ise epeli Beet het: //em. Sirta: cafanclub/168” 
p> 
p class="c9" RAME: 2016-08-12¢/0> 








6-63 ”源码 页 面 


所 有 的 上 榜 MV 都 在 标签 <div class="op_num"> 这 个 标签 下 。 扑 虫 的 抓 取 规 则 也 有 了 ， 下 
面 就 看 具体 实施 了 。 


6.7.2 项 目 实施 

打开 Eclipse， 创 建新 项 目 YinYueTaiBS4URL， 并 在 项 目 中 创建 一 个 PyDev Modules 文 
件 getTrendsMV.py 作为 主 文件 ， 把 上 节 项 目 中 使 用 过 的 mylog.py 复制 到 当前 目录 下 。 因 为 
要 使 用 不 同 的 proxy 和 headers， 再 创建 一 个 新 的 资源 文件 resource.py。 

AME, mylog.py 可 以 略 过 ， 这 次 先 看 看 resource.py。 


【示例 6-13] resource.py 的 内 容 如 下 : 
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这 个 文件 很 简单 ， 仅 包含 了 2 个 列表 。UserAgents 列表 只 需要 在 网 上 找 一 下 ， 可 以 找到 
各 种 各 样 的 headers， 排 除 掉 移动 端的 也 有 不 少 ( 有 的 网 站 根据 客户 端的 不 同 返回 的 数据 也 不 
同 )， 尽 量 选择 大 众 化 的 UserAgent。 而 proxies 那 就 更 简单 了 ，Scrapy 项 目 中 不 是 有 个 
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getProxy 项 目 吗 ? 执行 条 命令 而 已 ， 来 个 100 条 proxy 都 没 问 题 。 这 里 仅 为 测试 给 数 十 个 
proxy 就 可 以 了 ， 只 需 稍微 注意 一 下 ， 不 要 选择 https 协议 的 就 可 以 了 Chttps 协议 的 proxy 也 
可 以 用 ， 但 会 增加 代码 工作 量 。 既 然 http 协议 的 够 用 了 ， 就 不 用 那么 费劲 了 )。 


【示例 6-14】 主 程序 getTrendsMV.py 的 内 容 如 下 : 
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所 有 的 代码 都 完成 了 ， 开 始 运行 。 单 击 Eclipse 图 标 栏 上 的 运行 图 标 ， 执 行 
getTrendsMV.py， 得 到 的 结果 如 图 6-64 所 示 。 


















File Edit Navigate Search Project Pydev Run Window Help 


FO Se ag | a 4 








ÎS PyDev Package... =o esource getTrendsM 上 mvTopUstbt £3 = 
Basle = Mainland ------~ 2016-08-20 00:50:27 “< 
a Gh YinyueTaiBs4 2@1 91.32 gtssmee+2016-07-19 sasu 站 
302 91.31 gbaszaa.2016-08-18 EXO Lotto alnate 
B getTrendsMV.log 303 89 .81  ghusmews2016-08-12 ZERO-G  aaimanamnarane a 
B getTrendsMV.py 504 88.21  RENERGRH2016-08-0F erate GANES ERRCTTANNS RAATH 
605 86.73  geasmes+2016-07-2ð  TFBOYS  apvmmiè za mecrraa+use 


EE 





T) mvToplistva -记事 本 
SUF BE) TO) BBV) WDH 
Mainland 一 一 一 : 2 16-08 0 00:50:27 

















tfe): 201 
F(E): 2016-08-12 
ia]: 2016-08-08 


的 思念 网 络 剧 < 超 少年 密码 > 插曲 
村 间 ，2016-08-16 
时 间 ，2016-08-12 


好 吗 
es 
ee v Si 版 
时 避 ，2016-07-21 


图 6-64 run getTrendsMV.py 


好 了 ， 程 序 执行 结果 没 问题 。 如 果 想 知道 实时 榜 单 ， 单 击 鼠 标 运行 一 下 程序 就 可 以 了 。 












6.7.3 ”代码 分 析 


本 节 的 getTrendsMV.py 有 阜 虫 从 功能 上 看 要 比 上 节 的 被 动 式 反 扑 虫 要 复杂 一 些 ， 但 代码 更 
简单 一 点 。 项 目 中 mylog.py 没什么 好 说 的 ， 就 一 log 助手 而 已 。resource.py 也 无 须 多 说 ， 就 
一 资源 文件 。 如 果 觉 得 手动 挑选 proxy 比较 麻烦 ， 可 以 再 写 一 个 Python 程序 让 其 自动 导入 
proxy 到 resource.py 中 。 唯 一 需要 分 析 的 就 是 getTrendsMV.py 主 程序 了 

第 9~15 行 ， 开 头 还 是 导入 所 需 的 模块 ， 这 里 只 是 多 导入 了 一 个 random 模块 ， 用 于 从 列 
表 中 随机 挑选 User-Agent 和 proxy。 

第 17~22 行 创建 一 个 Item 类 ， 这 个 是 仿照 Scrapy 的 Item.py 写 的 ， 也 很 简单 。 

第 25~106 行 是 GetMvList 类 。 这 个 类 将 从 yinyuetai 网 站 中 获取 所 需 的 数据 。 第 29~32 
行 给 出 了 起 始 页 面 和 urls 的 规则 列表 ， 然 后 _init_ 函 数 自动 执行 了 selfgetUrls 函数 。 
self.getUrls 再 调用 其 他 函数 ， 完 成 类 设计 的 功能 。 第 36~47 行 是 getUrls 函数 ， 将 利用 起 始 页 
url 的 页 面 规则 ， 将 所 有 需要 扑 取 的 网 页 url 存 入 到 urls 列表 中 。 第 51-67 行 是 
getResponseContent 函数 ， 它 将 返回 请 求 url 的 数据 。 每 执行 一 次 getResponseContent 函数 都 
将 调用 一 次 selfgetRandomHeaders 和 self.getRandomProxy 函数 。 随 机 选择 一 个 proxy 和 
User-Agent 使 用 ， 使 网 站 的 反 息 虫 工 具 无 从 捕捉 。 第 61 行 的 作用 是 每 执行 一 次 函数 都 将 暂停 
1, WARMER AR I. F 69~90 行 是 spider 函数 ， 它 的 作用 就 是 根据 爬虫 的 抓 取 规 
则 ， 从 返回 的 数据 中 抓 取 所 需 的 数据 。 第 93~97 行 是 getRandomProxy 函数 和 
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getRandomHeaders 函数 ， 虽 然 只 有 1 行 命令 ， 但 还 是 写成 了 函数 ， 这 是 为 了 以 后 有 什么 新 功 
能 可 以 很 方便 地 添加 进去 。 第 100~109 行 是 pipelines 函数 ， 将 所 有 抓 取 到 的 有 效 数 据 保 存 到 
txt 文件 中 。 第 112~113 行 是 程序 的 _main 程序， 只 有 一 条 命令 ， 用 于 实例 化 GetMvList 
类 。 


6.8 本 章 小 结 


Bs4 扑 虫 也 很 强大 。 它 的 优点 在 于 可 以 随心 所 欲 地 定制 企 虫 ， 缺 点 就 是 稍微 复杂 了 一 点 
点 ， 需 要 从 头 到 尾 的 写 代码 ， 这 毕 况 是 作文 题 。 填 空 题 虽 然 简单 ， 但 从 头 到 尾 都 身 不 由 己 ， 
得 按照 框架 作者 的 思路 走 。 作 文 题 毕竟 是 自己 写 的 ， 可 以 随心 所 欲 地 修改 调整 。 如 果 是 比较 
小 的 项 目 ， 个 人 建议 还 是 用 bs4， 可 以 有 针对 性 地 根据 自己 的 需要 编写 息 虫 。 大 项 目 ， 那 还 
是 建议 选 Scrapy 吧 ，Scrapy 能 流行 至 今 可 不 是 浪 得 虚名 。 
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7 章 
< Mechanize 模 所 浏览 器 > 


细心 的 读者 应 该 已 经 发 现 了 ， 本 章 之 前 的 仆 虫 讲 的 都 是 对 一 般 静 态 网 站 的 数据 过 滤 ， 但 
不 是 所 有 的 网 站 都 可 以 这 样 简单 地 得 到 数据 的 。 比 如 ， re 要 登录 后 才能 获取 数据 ， 
这 样 一 来 ， 仅 靠 urllib2 模块 就 有 点 力不从心 了 Curllib2 模块 也 可 以 朴 取 动态 网 站 的 数据 ， 不 
过 过 程 就 很 麻烦 了 ) 。 幸 好 Python 还 有 更 加 强力 的 模块 Mechanize。 

Mechanize 并 不 是 拒 虫 ， 它 是 一 个 Python 模块 ， 用 于 模拟 浏览 器 的 模块 。 本 书 讲 的 是 网 
络 息 虫 ， 直 接 扑 数据 就 好 了 ， 为 什么 会 跟 Mechanize tk bX AYE? 前 面 的 章节 都 是 使 用 
urllib2 模块 向 服务 器 发 送 请 求 的 。 如 果 网 页 要 求 登 录 ， 输 入 用 户 名 、 密 码 ，urllib2 可 以 应 
付 。 但 如 果 是 需要 输入 验证 码 那 就 麻烦 了 。 目 前 是 有 开源 的 方 案 可 以 解决 这 个 问题 ， 只 不 过 
需要 绕 很 多 的 弯路 。 倒 不 如 直接 使 用 模拟 浏览 器 ， 很 方便 地 解决 这 个 问题 。 

Python 的 第 三 方 模块 中 ， 能 模拟 浏览 器 的 模块 也 不 少 。 选 择 Mechanize 的 原因 在 于 它 的 
易 用 性 和 实用 性 比较 平衡 ， 功 能 强大 而 又 简单 易 用 ， 就 选 它 了 。 


安装 Mechanize 模块 


Mechanize 的 官网 是 http://wwwsearch.sourceforge.net/mechanize/。 在 官网 中 给 出 了 3 种 安 
装 方法 ，Easy_install 安装 、 源 码 安装 和 git 安装 。 实 际 安装 时 可 以 根据 平台 特性 选择 最 简单 
的 安装 方法 即 可 。 


7.1.1 Windows 下 安装 Mechanize 


在 Windows 中 安装 Python 的 第 三 方 模块 ， 最 简单 的 方法 莫 过 于 pip 了 “前 提 条 件 是 已 经 
配置 过 pip 源 了 ， 使 用 初始 源 会 比较 慢 )。 打 开 cmd.exe， 执 行 命令 : 


pip install mechanize 


执行 结果 如 图 7-1 所 示 。 


7% Mechanize 模拟 浏览 器 


vs\king>pip install mechanize 
ollecting mechanize 
Downloading mechanize 9 2 5 tow.ge (383KB) 





1 143kB 354kB/s eta 0:00:01 
1 153kB 253kB/s eta 9:98:9 
163kB 245kB/s eta 日 :9B: 
174kB 243kB/s eta 0:00 

1 184kB 387kB/s eta 0:0 
1 194kB 386kB/s eta @: 
1 284kB 382kB/s eta 日: 
1 215kB 382kB/s eta @ 
i 225kB 382kB/s eta 
1 235KB 383kB/s eta 
1 245kB 383kB/s et 
1 256KB 664kB/s e 
i 266kB 721kB/s 
1 276KB 736kB/s 
1 286kB 673kB/s | 
1 296kB 678kB/ 
1 307KB 691kB 
1 317kB 696k 
1 327kB 701 
337kB 70 
348kB 78 
1 358kB 2 -| 































FA 7-1 Windows 安装 mechanize 


已 经 把 Mechanize 安装 到 Windows 上 ， 可 以 直接 使 用 了 。 


7.1.2 Linux 下 安装 Mechanize 
在 Linux 找 安装 软件 最 简单 的 方法 还 是 apt-get， 感 谢 “ 万 能 ”的 deiban 软件 库 ， 即 使 是 
aes 模块 也 可 以 用 - 键 安 不 必 介意 Mechanize 官网 上 的 安装 建议 ， 怎 么 简单 怎 
么 来 就 可 以 了 。 执 行 命令 


apt-get install python-mechanize 


执行 结果 如 图 7-2 所 示 。 





n:~$ apt-cache search py 
ze - stateful programmatic web browsing 


个 软件 包 ， 有 0 个 软件 包 未 被 升级 


/nome/king$ 
root @debian: /home/king# 目 





图 7-2 Linux 安装 mechanize 


因为 Mechanize 很 久 没 更 新 的 缘故 ，Linux 下 安装 的 最 稳定 版 本 也 是 最 新 的 版 本 0.2.5。 
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不 过 无 须 担忧 ，Mechanize 已 经 很 强大 了 。 使 劲 地 往 好 的 方面 想 ， 说 不 定 没 更 新 是 因为 这 个 
模块 已 经 改 无 可 改 了 呢 ? 


7.2 Mechanize 测试 


百 闻 不 如 一 见 ， 说 得 再 多 也 不 如 直接 测试 一 次 。Mechanize 模块 ， 常 用 的 命令 、 方 法 并 
不 多 ， 作 为 一 般 使 用 者 ， 无 须 追 求 掌控 所 有 细节 ， 只 需要 能 使 用 、 会 使 用 即 可 。 它 只 是 个 很 
简单 的 模块 ， 多 试 几 次 就 能 熟练 掌握 。 


7.2.1 Mechanize 百度 


先 试 下 最 简单 的 用 法 ， 以 最 常用 的 网 站 百度 为 例 。 使 用 Mechanize 访问 百度 搜索 站 点 ， 
并 使 用 百度 搜索 “python 网 路 仆 虫 ”得 到 返回 结果 。 如 果 不 使 用 Mechanize， 屠 就 只 能 在 浏 
览 器 中 输入 搜索 的 关键 字 ， 再 观察 URL 的 变化 规律 ， 最 后 将 所 有 的 URL 注入 到 列表 中 ， 一 
个 个 地 返回 结果 疏 取 数据 。 下 面 演示 如 何 使 用 Mechanize 模拟 浏览 器 ， 搜 索 关键 字 。 

使 用 putty 连接 到 Linux, i247 Python 程序 ， 并 导入 Mechanize 模块 ， 如 图 7-3 所 示 。 


king@debian:~$ python 
Python 2.7.9 (default, Mar 1 2015, 12:57:24) 


", "credits" or "license" for more information. 





7-3 mechanize 环境 
在 Python 环境 下 ， 执 行 命令 : 





执行 结果 如 图 7-4 所 示 。 
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leing@debian:~$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

ype "help", "copyright", "credits" or "license" for more information. 
>>> import mechanize 

>>> br = mechanize.Browser() 


>>> br.set_handle_equiv (True) 
>>> br.set_handle redirect (True) 


>>> br.set_handle_robots (False) 

>>> br.set_handle_gzip(False) 

>>> br.set_handle refresh (mechanize._http.HTTPRefreshProcessor(), max time=1) 
[>>> br.addheaders = [('User-agent', 'Mozilla/S.0 (X11; U; Linux i686; en-US; rv: 
ji. sie Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1")] 

>>> 





7-4 Browser 环境 设置 
使 用 mechanize 浏览 器 打开 百度 搜索 的 主页 ， 并 查看 打开 网 页 中 的 框架 。 执 行 命令 : 





执行 结果 如 图 7-5 所 示 。 


STe60 whose wrapped object = <closeable_respo 
ae at ox7zasbdco1368 whose f° = ee _fileobject object at Ox7fasb4cccc50>>> 


>>> For form in br. forms 
ais print form 


<atadenconkrol (£8) (readonly)> 
<HiddenControl (rsv_bp=1) (readonly)> 
<HiddenControl (rsv_idx=1) (readonly)> 
<HiddenControl(ch=) (readoniy)> 
<HiddenControl (tn=baidu) (readonly)> 
(readonly) > 


Emiteontro! (cNone>=@ M—F) (readonly)> 


<HiddenControl(rn=) (readonly)> 

<HiddenControl (oq=) (readonly)> 

<HiddenControl (rsv_pq=e21416f7000ac4be) (readonly)> 

<HiddenControl (rsv_t=2358R/NVmDD+/zEba 6aqmOPkH9Q20H3304sMNarrDF8C+yxoLNtKDM40z_ 
ak) (readonly)> 

<HiddenControl (rqlang=cn) (readonly)>> 





7-5 显示 网 页 框架 


从 图 7-5 中 可 以 看 出 ， 只 有 一 个 名 字 为 了 f 的 框架 (有 时 候 框架 没有 名 字 ， 那 就 只 能 用 它 
们 的 顺序 来 选择 。 第 一 个 框架 是 nr=0， 第 二 个 是 nr=1， 以 此 类 推 )。 输 入 文字 的 位 置 为 文本 
输入 框 <TextControl (wd=)>。 选 择 框架 ， 在 框架 内 输入 数据 后 提交 数据 。 以 搜索 “Python 网 
HER” Al, Tire: 


执行 结果 如 图 7-6 所 示 。 
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EIA: Eus 





p55 
[>>> br.select_form(name='f') 
>>> br-form['wa'] = ‘Python PUSSIES: 


>>> br. submit () 


\<response_seek_wrapper at Ox7faSb4c9idd0 whose wrapped object = <closeable_respo) 
lase at 0x7fa5bdcba830 whose fp = <socket. fileobject object at Ox7fasbécdsdd0>>> 
>>> [] 














7-6 ”搜索 关键 字 
返回 搜索 的 结果 ， 执 行 命令 : 

| Print br.response()-read() 
执行 结果 如 图 7-7 所 示 。 















[<div class="c-row c-gap-top"> 
i <div class="c-span¢ opr-recommends-merge-item opr-recommends-merge-item-ver 
tical" daca-click-"{'zsv_re_ename':"pyrhon 计 算 与 编程 实践 ', rev re uri':'cs0es6f1 
soosaecebdso8rsea3odlbe: 








<div class="opr-recommen 
ds-merge-p": 





<a target="_blank" href="/s?rsv_idx=14wd=pythontES$AE4A14E74AE$973E4 
4BE4SE4E74BC4964E74AS$EB4ESSAE$9EVES4B74B5cUSm=l14ie=utf-Sérsv_cq=python+4E74BD49 
1sETsSBBs9CSE74884ACSES4994hB5rsv_d1~0_righr_reccmmends merge_21102¢amp:cq=python 
+zosE74BD914E74B349C4E74894ACSE54994XB6ampysrcld-283105amp: 工 CSEGSANESA14ETSRAES9 
TaE6ssCsBAsE74B1433B4E44394M6SE74B148D6amp;yzecid=211025ampieuzl=c50e36f1f0084ec6b 
asosaf5ea30d1be7w><img data-img="https://ss2.baidu.com/60NYs3ip0QIZ8tyhngq/it/u=4 
063802933, 4658134fm=58" class="c-img c-img4 opr-recommends-merge-img"/></a> 
</div> 

<div class="c-gap-top-small"><a target="_blank" title="python 计 算 与 编程 
SRR" nret="/s?rsv_iduq1éwd=pythontEethEtAisE 74AE 89742 4 4BesSEtE 7 SBC8 SESE AA 
ESQAESOESESSB7855 cusm=16ie~utf-Serev_cq=python+$E7$BD8918E78SBS SCRE 7&SSSACSESSSS 
lsABGrsv_di=0_right_recommends_merge_?1102éemp:cq~python¥20%E74BD8914E74BBSSC¥E7% 
(eS SACSESSO9NABGamp; srcid~283 0camp; FU~SESSAESAI SE 74AE SS 74E CS SCABAGE 74D14BD4E44B9 
MAGSE7%5186Déamp; recid=21102éamp; euri=cS0e36f1£008 4ecébds08fSeas0dibe7">pythonit 


复 与 编程 实践 </a></div> 














</div> 


返回 搜索 结果 








查看 返回 页 面 的 所 有 链接 ， 执 行 命令 : 


执行 结果 如 图 7-8 所 示 。 






















Inttp://tieba.baidu.com/f?kw=Python$208CD$F8$C2$E7$CS¢COSBSsE6frawwwt 
Intep://zhidao.baidu.com/q?ct=17épn=0stn=ikaslistérn=10éword=Pythont20%CDtFeeC2tE 
Tscsscosa3sE65fr=wwwc : 
fest }/ fms: DEAS, om/ Sedxchi? a ure Re Byen ta ro 
Inttp://image.baidu.com/search/index?tn=baiduimagesps=14ct=201326592¢1m=-1ec1=26n 
||ca1sie=utt-seword=Pythons20scDsFesc2sE7scsscosssses : 图 片 
Ihetp://v.baidu.com/v?ct=3019898886rn=20spn=0sdb=04s=256ie=utf-8£word=Pythont204C 
[[DSF84C24E74C54CO4B34E6 : 视频 
hzcp://map.baidu .com/m?word=Pychons204CDsEF84C24E74C5sC04B34E6kfr=ps01000 : 地 图 
hrzp://wenku.baidu.com/search2?word=PYchons208CDSEF88C24ET8C5SCO4B34E651m=0&od=05 
le=utf-8 : 文库 
/ Sawa baidu.com/more/ : 更 多 > 
Javascript 展开 
/sa?rsv_idx=lswd=sEBs8T4RRSES5sSBT4B14E546ASAGSE648948B4E54664994ET4BDS914ET4BBS9CS 
IE7S8SSACSESS998ABCusm=16ie=utf-fersv_cq=python+#E7$BD%91%E7$BBs SCE 74SS4ACtES499| 
JsaBerev_di-0_ right recommends merge _21102éca~python$20%E7$BD$91$E7$BBS9CtE7$S88A 
|cseesoo8apesrcia-28s10crt“sbe tarsal S27SAE‘97SE6%9CRBASE7#51 SBBAE4SB9SAGSETEBIEED 
97; 
EE TD EE EE 
7ssssacsEss99sRBxusm=1sie=ucf-ssrsv_cq~pYchon+tET4BDS914E74BB49C4E74884RACSEB499 
saasrsv_dl-0_righc_recommends merge 211025cq=pychons204ET&BD&914ET&BB&9CSET4884A 








|cszessssaaeszcid-25310szrc=sEssRESR1SETSRES9TsE6s9CSSMSETSB143SB4E44B94R6SET4B148D 
srecid=211025euri=b44b507f21c84b2991b738b574444d1ib : 自己 动手 写 网 络 怜 虫 


7-8 返回 链接 
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使 用 mechanize 浏览 器 打开 指定 链接 ， 执 行 命令 : 


newLink = br.click_link(text=' 自己 动手 写 网 络 息 虫 ) 
br.open (newLink) 


执行 结果 如 图 7-9 所 示 。 





p>> 
>>> newLink = br.click_link(text=' 自 己 动手 写 网 络 息 虫 ') 

>>> br.open (newLink) 

response_seek wrapper at Ox7faSb4d08200 whose wrapped object = <closeable respo 
nse F Ox7fa5b465edd0 whose fp = <socket. fileobject object at Ox7fa5b45e5050>>>/_| 
>>> - 











图 7-9 打开 链接 


如 果 觉 得 打开 的 链接 不 对 ， 还 可 以 使 用 br.back0 命 令 返回 上 一 个 页 面 。Mechanize 的 基 
本 操作 就 是 这 些 了 。 


7.2.2 Mechanize 3¢3 F460 


Mechanize 可 以 模拟 登录 ， 只 是 现在 几乎 所 有 的 站 点 登录 都 需要 输入 验证 码 。 虽 然 也 有 
开源 的 解决 方案 ， 可 以 解决 验证 码 什么 的 ， 但 后 面 有 更 简单 的 解决 方案 ， 没 必要 在 这 里 与 验 
证 码 死 太 。 笔 者 一 向 认为 ， 最 简单 的 方法 就 是 最 合适 的 方法 ， 宁 愿 多 敲 几 行 代码 ， 也 要 选择 
最 简单 的 。 

如 今 无 须 验 证 码 就 可 以 登录 的 站 点 可 不 好 找 。 好 在 身边 有 一 个 现成 的 Web 服务 器 符合 要 
求 ，F460 光 猫 的 配置 页 面 。 而 且 还 正好 是 动态 回复 数据 的 ， 简 直 是 为 Mechanize 量 身 定做 
的 。 

在 浏览 器 中 打开 光 猫 F460 的 配置 页 面 http:/192.168.1.1， 执 行 结果 如 图 7-10 所 示 。 


© > CŒ D19216811 





7-10 F460 光 猫 登录 


填写 用 户 名 和 密码 后 单 击 “ 登 录 ” 框 (用 户 名 是 admin， 密 码 要 么 直接 问 电 信 ， 要 么 在 
百度 里 搜索 一 下 “hack f460 光 猫 ”) ， 进 入 配置 界面 ， 结 果 如 图 7-11 所 示 。 
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D 192.168.1.1 











中 国电 信 

F460 
4C0984-453004C09B45B4692 
v3.0 

















V2.30.10P3T2hbH 


图 7-11 获取 光 猎 F460 信息 
先 用 Python 模拟 测试 一 次 。 打 开 putty， 登 录 到 Linux， 进 入 到 Python 环境 。 执 行 命 








执行 结果 如 图 7-12 所 示 。 


|Last login: Thu Aug 25 15:41:52 2016 from 192.168.2.99 


king@debian:~$ python 
python 2.7.9 (default, Mar 1 2015, 12:57:24) 


ype "help", "copyright", "credits" or “license” for more information. 
import mechanize 
cj = mechanize.Cookievar() 
br = mechanize.Browser() 
br.set_handle_equiv (True) 
br.set_handle_gzip (False) 
br.set_handle redirect (True) 
br.set_handle_referer (True) 
br.set_handle_robots (False) 
br.set_handle_refresh(mechanize._http.HITPRefreshProcessor(), max_time=1) 
aders = [('User-agent', ‘Mozilla/S.0 (Windows NT 6.1; WOW64) AppleWe 
+36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36")] 
>>> br.set_cookiejar(cj) 
>>> br.open(*http://192.168.1.1") 
|<response seek wrapper at Ox7fl0beffc908 whose wrapped object = <closeable_respo 
nse at Ox7f£10bf06dbds whose fp = <socket. fileobject object at 0x7f10bf032c50>>>| 








7-12 ”模拟 浏览 器 打开 光 猫 f460 主页 
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查看 网 页 上 的 框架 ， 执 行 命令 : 


执行 结果 如 图 7-13 所 示 。 


p>> 
>>> for form in br.forms(): 
s. print form 


fLogin POST http://192.168.1.1 application/k-www-form-urlencoded 
<TextControl (Username=) > 
PasswordControl (Password 
<SubmitControl (<None: = 3) (readonly)> 
<SubmitControl (<None>=g3 vgs) (readonly)> 
Si eee (Frm _Logintoken=) (readonly)>> 
>>> 





图 7-13 查看 主页 框架 


从 图 7-13 可 以 得 知 ， 主 页 框架 的 名 字 是 fLogin， 框 架 内 文本 框 变量 名 是 Username, 2% 
码 框 的 变量 名 是 Password。 进 入 文本 框 ， 给 变量 赋值 后 ， 发 送 数据 。 执 行 命令 : 





其 中 在 选择 框架 时 ， 可 以 用 框架 名 字 ， 也 可 以 用 框架 的 序列 号 ， 序 列 号 从 0 开始 。 例 如 
在 这 里 选择 框架 时 就 可 以 用 brselect_form(nr=0)。 如 果 需 要 选择 第 二 个 框架 ， 则 是 
br.select_form(nr=1)。 执 行 结果 如 图 7-14 所 示 。 


ar dHeight = iframe.contentWindow.document.documentElement.scrollHeight; 
ar height = Math.max(bHeight, dHeight); 
iframe.height = height; 

catch (ex){} 

+ 

jindow.setinterval ("reinitIframe()", 200); 
</script> 

body align="center"> 

div align="center" style="margin:0 auto:" > 
<table width="08px" border="0"> 

ktr><ta> 


<iframe width="s08px" netgnce*sssoa* [ezomreop genr rc scrolling="no 
i" frameborder="0" id="em 

<iframe width="208px" Iname="mainFrame" id="mainFrame" scrolli 
ng="no" frameborder="Q™ontoad="ehis hergnt=400"></iframe> 





7-14 获取 框架 URL 


这 里 显示 了 框架 的 链接 。 根 据 链接 的 地 址 template.gch， 直 接 使 用 Mechanize 创建 的 浏览 
器 打开 这 个 链接 就 可 以 了 。 执 行 命令 : 
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执行 结果 如 图 7-15 所 示 。 





div class="space_0"> 
table class="infor" id="TABLE DEV" width="410" border="0" cellpadding="0" cell 
lspacing="1" bgcolor="£979797"> 
tr class="blue_1"> 
[<td class="tdleft"> 运 营 商 </td> 
td id="Frm_CarrierName" name="Frm CarrierName" class="tdright"> 中 国电 信 </td> 
/tr> 
ktr class="white_1"> 
td class="tdleft"> 设 备 型 号 </td> 
‘td id="Frm ModelName" name="Frm ModelName" class="tdright">F460</td> 
[</tr> 
tr class="blue 1"> 


td class="tdleft"> 设 备 标 识 号 </ta> 
<td id="Frm SerialNumber" name="Frm SerialNumber" class="tdright">4C09B4~453004C 


rm HardwareVer" name="Frm_HardwareVer" class="tdright">V3.0</td> 
="blue_i"> 


"cdleft"> 软 件 版 本 号 </ca> 


<ta m SoftwareVer” name="Frm SoftwareVer" class="tdright">V2.30.10P3T2hbH< ~ 
7-15 ”获取 数据 


好 了 ， 创 建 浏览 器 获取 数据 的 过 程 已 经 运行 了 一 遍 了 。 下 面 可 以 使 用 bs4 配合 
Mechanize 来 抓 取 光 猫 F460 的 数据 了 。 





7.3 Mechanize 实 站 一 : 获取 Modem 信息 


使 用 urllib2 也 可 以 比较 方便 地 处 理 那些 无 须 验 证 码 的 登录 页 面 ， 不 过 使 用 Mechanize 登 
录 更 加 方便 。 当 然 是 怎么 方便 怎么 做 。 下 面 以 抓 取 光 猫 F460 的 设置 页 面 为 例 ， 使 用 
Mechanize 配合 Bs4 抓 取 光 猫 F460 的 数据 。 


7.3.1 获取 F460 数据 


启动 Eclipse， 新 建 PyDev 项 目 MechanizeAndBs4。 在 新 项 目 中 创建 一 个 PyDev Module 
文件 getF460Info.py。 


【示例 7-1) getF460Info.py 的 内 容 如 下 : 
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Python MERS 


然后 将 mylog.py 复制 到 MechanizeAndBs4 项 目下 ， 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 
行 结果 如 图 7-16 所 示 。 





第 7 章 Mechanize 模拟 浏览 


File Edit Source Refactoring Navigate Search Project Pydev Run Window Help 


CO earl ore 

















F460 

V3.0 
4C09B4-453004C09B45B4692 
V2, 30, 10P3T2hbH 


V1. 0. 0T4 
2012-07-06 11:59:11 








图 7-16 run getF460Info.py 


疏 虫 程序 运行 无 误 ， 已 经 得 到 了 预期 的 效果 。 


7.3.2 ”代码 分 析 


这 个 候 虫 大 部 分 和 以 前 的 bs4 ME BEAT AKG, HEAL Mechanize 模块 代替 了 urllib2 模 
块 。 在 不 需要 输入 验证 码 的 情况 下 ，Mechanize 还 是 很 简单 方便 的 。 下 面 来 看 看 示例 7-1 这 个 
程序 中 的 代码 作用 。 

第 9~11 行 是 导入 模块 ， 很 标准 的 Python 程序 流程 。 

第 16~21 行 是 F460Info 类 的 解析 函数 ， 定 义 了 几 个 变量 。 在 C 语言 中 定义 这 种 类 似 的 变 
量 ， 一 般 都 是 在 文件 头 使 用 defines Python 中 没有 define， 放 在 这 里 正好 合适 ， 修 改 也 很 方 
便 。 

第 24~39 行 是 spider 类 函数 。 这 个 函数 的 作用 是 通过 BeautifulSoup 从 字符 串 中 过 滤 抓 取 
所 需 的 数据 。 在 使 用 soup 获取 数据 后 ， 都 使 用 了 strip 函数 去 除了 数据 左右 的 空格 、 回 车 等 
不 可 见 字 符 。 

第 42~71 行 是 getResponseContent 类 函数 。 作 用 是 通过 Mechnize 模块 来 获取 目标 页 面 的 
返回 数据 。 第 44 行 创建 了 一 个 浏览 器 对 象 ， 第 45~51 行 都 是 对 浏览 器 对 象 的 设置 。 这 些 设 
置 并 不 是 可 有 可 无 的 ， 在 打开 某 些 网 页 时 会 因为 这 些 设置 的 不 同 而 得 到 不 同 的 结果 。 如 果 没 
什么 特殊 要 求 ， 这 样 设置 就 可 以 了 。 

在 编写 程序 之 前 ， 已 经 知道 了 最 终 的 目标 网 页 是 http://192.168.1.1/template.gch。 可 在 第 
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53~62 行 还 是 用 浏览 器 对 象 打开 了 http:/192.168.1.1。 这 是 因为 直接 打开 目标 页 面 是 得 不 到 任 
何 数据 的 ， 只 有 先 登 录 http:/192.168.1.1， 得 到 合法 的 Cookie， 然 后 利用 这 个 Cookie 才能 打 
开 目 标 页 面 。 

第 74~79 行 的 pipeline 类 函数 的 作用 是 处 理 最 终 的 结果 ， 将 结果 存 入 文件 。 这 里 直接 使 
用 open 打开 文件 ， 数 据 中 有 中 文字 符 ， 存 入 数据 时 必须 使 用 encode 将 字符 串 转换 成 合法 的 
数据 后 存 入 。 





7. 4 Mechanize 实战 二 : 获取 音 悦 台 公告 


上 节 讲 的 是 无 验证 码 登 录 息 取 数据 ， 这 节 演 示 需 要 验证 码 的 仆 虫 了 。 有 些 网 站 或 论坛 为 
了 防止 暴力 破解 ， 在 登录 框 设 置 了 一 个 验证 码 。 有 坚固 的 盾 就 有 锐利 的 予 ， 目 前 针对 验证 码 
的 解决 方案 可 谓 是 千奇百怪 。 有 些 方案 的 确 有 效 ， 但 不 具备 普遍 性 。 考 虑 到 爬虫 历 需 要 的 只 
是 数据 ， 完 全 可 以 绕 过 验证 码 ， 直 接 使 用 Cookie 登录 就 可 以 了 。 


7.4.1 登录 原理 
以 音 悦 台 网 站 为 例 ， 先 来 看 看 音乐 台 的 登录 界面 ， 如 图 7-17 所 示 。 









音 悦 Tai 账 号 登录 


h @hotmail. com 


川 】 enone emasna ) ©) 
2 下 大 自动 他 SEB 


ER 





PRASTAME? IMER 





TAT 音 悦 台 登 录 界 面 


这 个 网 站 的 登录 就 相当 的 麻烦 了 ， 它 需要 拖 动 滑 块 到 合适 的 位 置 补 全 图 片 。 如 果 只 是 验 
证 码 还 有 些 开源 方案 可 供 选择 。 这 种 验证 方式 ， 目 前 还 没 发 现 可 以 模拟 登录 的 Python 程序 。 
因此 干脆 选择 适应 性 最 广 的 方法 ， 直 接 利用 Cookie 获取 目标 页 面 数据 。 

这 种 方法 好 处 在 于 不 管 有 没有 验证 码 ， 也 不 管 验 证 码 有 多 么 复杂 ， 它 都 是 有 效 的 。 它 利 
用 的 只 是 Cookie， 跟 用 户 名 、 密 码 、 验 证 码 都 没有 关系 。 缺 点 就 是 操作 比较 复杂 ， 还 有 就 是 


258 





第 7 章 


Cookie 的 生存 期 可 能 不 长 ， 过 一 段 时 间 就 得 重新 操作 一 遍 。 


7.4.2 ”获取 Cookie 的 方法 


获取 Cookie 的 方法 很 多 。 不 管 使 用 哪 种 方法 ， 首 先 都 得 登录 后 再 操作 。 打 开 登 录 页 面 ， 
输入 用 户 名 密码 ， 将 滑 块 拖 动 到 正确 的 位 置 后 登录 网 站 ， 如 图 7-18 所 示 。 


使 用 合作 账号 登录 (推荐) 








图 7-18 登录 网 站 
登录 网 站 后 进入 目标 页 面 ， 如 图 7-19 所 示 。 
[Er 


[ 


ERAAN 0 本 以 下 可 以 二 近亲 .更新 地 址 
http:/ /www.yinyuetai.com/apps/ mobie 


F75 Star VEER A PEATE STVAR.. 

ta TVE RERA 7E8A PETERS: 
pts eia en EH APARER 
mhttp://feature.yinyuetal com/bap 





EEDE, SSMEeRE! 
舞台 的 中 央 因 你 们 而 发 光 Sea 
一 一 http://festure yinyuetai.com/xrsn/wap 


图 7-19 目标 页 面 


EOE, SRO ELS ! SSE 
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从 目标 页 面 可 以 获取 个 人 的 信件 、 站 内 公告 等 。 现 在 只 需要 从 目标 界面 获取 Cookie 就 可 


以 了 。 其 他 的 数据 留 给 bs4 处 理 。 
获取 Cookie 的 方法 很 多 ， 以 下 只 列 出 比较 典型 的 几 种 。 


1. JavaScript 获取 Cookie 


所 有 的 浏览 器 默认 情况 下 都 是 支持 JavaScript 的 〈 如 果 默 认 不 支持 ， 请 自行 修改 选项 )。 
因此 获取 Cookie 最 常见 到 的 方法 就 是 在 浏览 器 中 打开 目标 页 面 ， 然 后 在 地 址 栏 输入 


JavaScript fir: 
javascript:document .write (document.cookie) 


执行 结果 如 图 7-20 所 示 。 


fe C D iyinyuetai.com/news/bulletin 


yinyuetai_uid=adw: ocQyllz7; tid=ab dxycTlLco; route=1fd: aq 
JSESSIONID=aaa akHvy; autoPlayer=0; pushState=true; _ga=GAl. 2. 1470831739; 


searchSID=c52c5 _ 396£978b89b; 


u_inf=40878590%02r ` mail. comW02normal_user%02http%SA%2F%2Fimg2. yytcdn. cork% 


token=282flbld3be65a24hKCEB16owL2. 1a8ef. 0; token3=1da96C 


. 亚 B1.16DEB1.AP. la8ef. 


CNZZDATA1330456=cnzz_ei - F%252Fwww. yinyuetai. corW252F%26nti 


p2=9c4ef 86db 





7-20 JavaScript 获取 Cookie 


这 种 方法 的 好 处 在 于 无 须 借助 任何 工具 就 可 以 获取 到 Cookie 信息 ， 缺 点 是 获取 的 
Cookie 信息 有 时 会 不 太 完 整 ， 缺 少 关键 的 几 项 。 有 的 网 站 用 这 种 方法 获取 的 Cookie 可 以 登 


录 ， 有 的 又 不 行 。 不 具备 普遍 性 ， 这 种 方法 不 可 取 。 
2 . 浏览 器 记录 中 获取 Cookie 


浏览 器 在 登录 站 点 后 会 将 Cookie 信息 保存 到 文件 中 (这 里 以 Chrome 浏览 器 为 例 ) 。 这 
个 文件 的 位 置 在 C:\Users\WindowsLoginName\A ppData\Local\Google\Chrome\User Data\Default 


目录 ， 文 件 名 为 Cookies， 如 图 7-21 所 示 。 





j « NORS (C) > AA > king » AppData » Local » Google » Chrome » User Data » Default » aa al 





Cookies-journal 





oss 
DownloadMetadata 
问 的 位 置 文件 
Dive 755 $5 
Extension Cookies-journal Favicons 
o5 6.28 MB 





Current Session 
文件 

31.7 KB 
Extension Cooki 
7.00 KB 
Favicons-journal 


025 





7-21 浏览 器 Cookies 文件 位 置 


这 个 Cookies 文件 实际 上 是 一 个 sqlite3 的 数据 库 。Chrome 将 浏览 器 上 的 所 有 Cookie 都 


260 





第 7 章 ”Mechanize 模拟 浏览 器 


保存 到 这 个 数据 库 中 。 将 这 个 Cookies 文件 复制 一 个 备份 ， 名 为 Cookies.db (尽量 避免 直 接 
对 系统 文件 操作 ) 。 在 该 目录 下 按 Shift 键 并 单 击 鼠 标 ， 在 弹出 的 菜单 中 选取 “在 此 处 打开 命 
令 窗 口 ”， 如 图 7-22 所 示 。 

















图 7-22 目录 中 打开 cmd.exe 


在 cmd.exe 中 打开 python 环境 ， 连 接 到 sqlite3 数据 库 ， 并 读 出 与 yinyuetai.com 相关 的 
Cookie。 执 行 命令 : 








新 版 Chrome 支持 的 sqlite3 版 本 必须 是 3.8 以 上 的 ,而 默认 安装 的 Python 2.7 自 带 的 版 本 ) 
是 3.6.21。 所 以 需要 到 sqlite3.org 上 下 载 Windows 版 本 的 新 的 sqlite3.dll 替换 。 如 果 不 愿 


意 替换 ， 那 就 把 Cookie.db 文件 复制 上 传 到 Linux 处 理 。 目 前 Linux 自 带 的 Python 2.7 自 
带 的 版 本 是 3.8.7.1。 





执行 结果 如 图 7-23 所 示 。 
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70100, 0, 0, 1, <read-write buffer ptr 0x7f0Ffbe5c5696， size 262 at Ox7f0f = 
bescs6ss>，0) 
人 498 201, u'vchart.yinyuetai.com', u'CNZZ = e wne, 
“000, 0, 0, 1311 ~-354200, 1, 1, 1, <read-write buffer ptr 0x7f0fbe 
, size 310 ac 0x7£0fbe4b0498>, 0) 
~ 133. :J0, u'vchart.yinyuetai.com', u'CNZ -s21', uy/t 
1000, 0, 0, 1312 * `=" ;54200, 1, 1, 1, <read-write buffer ptr Ox7f0fbe 
. Size 326 at Ox7£0fbeSb6960>, 0) 
27 2, utwaw.yinyuetai.com', u'CNZZ_ * 456", ut", ai 1 70 
10, 0, 0, 1311 74100, 1, 1, 1, <read-write buffer ptr 0x7f0fbeSdc 
c88, size 278 at Ox7£0fbeSdect8>, 0) 
85. 30, utso.yinyuetai.com', u'CNZ 30456', u'', u'/', 1 


300, 0, 0, 1311 -~- 73100， 1, i, 1, <read-write buffer ptr 0x7f0fbe4b04 
lds, size 310 at Ox7f0fbe4b0498>, 0) 
88 .20, u'.yinyuetai.com', u'searchSID' 


-87 00, u'www.yinyuetai.com', u'route', u'', u'/', 0, 0, 0, 13 
100, 0, 0, 1, <read-write buffer ptr Ox7f0fbescs448, size 262 at Ox7f0fbeS 


| J0, u'v.yinyuetai.com', u'CNZZ“ 30456', ult, w/', 
Boc “700, 0, 0, 13116 #100, 1, 1, 1, <read-write buffer ptr Ox7f0fbesbo4d|g 
ls, size 310 at Ox7£0fbesb0498>, 0) E 
>> i = 


图 7-23 从 文件 中 获取 Cookie 


已 经 将 所 有 相关 的 Cookie 列 出 来 了 。 如 果 要 把 这 些 数据 转换 成 可 使 用 Cookie， 还 得 继 
续 将 其 中 的 encrypted_value 字段 解码 。 这 个 是 可 以 做 到 ， 得 安装 别 的 Python 模块 ， 相 当 不 方 
便 。 使 用 这 种 方法 获取 Cookie， 好 处 是 所 有 的 Cookie 内 容 都 一 网 打 尽 ， 连 用 户 名 密码 都 可 
以 用 明文 解读 出 来 ， 坏处 则 是 要 把 这 些 数 据 转换 成 Mechanize 可 用 的 Cookie 比较 麻烦 ， 还 需 
要 安装 其 他 的 第 三 方 模块 ， 有 些 鸡肋 。 


3 . 利用 工具 获取 Cookie 


最 后 的 方法 就 是 利用 网 络 工 具 ， 在 浏览 器 向 服务 器 发 送 数据 时 截取 这 些 数据 ， 这 些 数 据 
不 仅仅 包括 Cookie， 还 有 一 些 其 他 的 信息 ， 而 且 这 些 信 息 Mechanize 还 都 用 得 上 ， 简 直 是 完 
美 。 这 种 方法 与 Mechanize 相当 的 合拍 ， 都 是 往 服务 器 发 送 数据 ， 区 别 仅 在 于 一 个 是 浏览 器 
发 送 ， 一 个 是 Mechanize 模块 发 送 而 已 。 

截取 浏览 器 和 服务 器 之 间 的 网 络 工具 有 很 多 ， 比 如 Fiddler、Wireshark 和 BurpSuite， 也 
有 浏览 器 自 带 的 ， 比 如 Firefox 的 Httpfox 和 Chrome 开发 工具 。 个 人 建议 是 直接 使 用 Chrome 
的 开发 工具 ， 如 果 Chrome 开发 工具 截取 的 数据 不 能 使 用 〈 这 种 可 能 性 极 低 ) 或 者 没 使 用 
Chrome 浏览 器 ， 那 就 使 用 Fiddler 或 BurpSuite。 





7.4.3 获取 Cookie 


1 . Chrome 开发 工具 获取 Cookie 


Chrome 浏览 器 自 带 的 开发 功能 相当 强大 ， 这 里 只 使 用 它 的 抓 包 功能 。 在 浏览 器 中 打开 有 目 
标 网 站 并 登录 ， 进 入 目标 页 面 ， 按 F12 键 ， 打 开 Chrome 开发 工具 ， 如 图 7-24 所 示 。 
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7-24 Chrome 开发 工具 
在 Chrome 浏览 器 下 方 的 开发 工具 中 单 击 Network 标签 页 。 按 FS 键 ， 刷 新 页 面 。 会 在 浏 
览 器 中 得 到 很 多 数据 ， 然 后 在 Filter 框 中 输入 目标 页 面 的 关键 词 bulletin， 找 到 发 送 请 求 的 
Request， 如 图 7-25 所 示 。 


iyinyuetaicom/mew Eo Te | 





2/62requecte LLNS / 259K ransiered | Finch: 26 mn | DOMContentloadec 338 me 











图 7-25 find Request 
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单 击 这 个 Name 为 bulletin 的 Request， 在 打开 的 界面 中 单 击 Headers 标签 ， 得 到 这 个 
Reqeust 的 Headers (这 里 也 有 Cookies 标签 ， 但 它 的 表现 形式 是 表格 ， 另 外 所 需 的 数据 不 只 
是 Cookie， 还 有 User-Agent， 所 以 这 里 选择 Headers 标签 ) ， 如 图 7-26 所 示 。 


CŒ D iyinyuetai.com/news/bulletin 





图 7-26 headers 

将 这 个 Request Headers 里 的 所 有 数据 都 复制 到 一 个 文本 文件 headersRaw.txt 中 备用 。 

2 . BurpSuite 获取 Cookie 

如 果 不 喜欢 Chrome 浏览 器 的 开发 工具 ， 或 者 没有 使 用 Chrome 浏览 器 ， 那 也 可 以 使 用 工 
具 来 获取 Cookie。 这 里 笔者 选择 的 是 BurpSuite 工具 ，BrupSuite 工具 简单 方便 ， 跨 平台 运 
行 ， 功 能 强大 。 如 果 要 说 明 BurpSuite 的 其 他 功能 ， 恐 怕 得 一 本 厚 书 才 行 。 这 里 只 使 用 
BrupSuite 最 简单 的 抓 包 功能 。 打 开 BurpSuite 工具 ， 选 择 Proxy 标签 下 的 Intercept 标签 ， 将 
Intercept is on 按钮 激活 。 这 样 设置 将 截取 浏览 器 的 Request， 但 不 向 服务 嚣 发送 ， 如 图 7-27 
所 示 。 


Burp louder Repeater Window Help 


[E] spr | Scanner | muse | Rapaztor | Seuncer | Dacoder | Compare | Exande | Options | Aone 




















7-27 BurpSuite 


BurpSuite 监控 的 端口 是 本 机 的 8080 端口 ， 所 以 必须 将 浏览 器 的 代理 端口 设置 为 
127.0.0.1:8080。 这 个 设置 根据 选择 的 浏览 器 不 同 而 选择 不 同 的 方法 设置 。 如 果 使 用 的 是 
Chrome， 建 议 使 用 SwitchySharp 插件 。 如 果 使 用 的 是 FireFox， 建 议 使 用 FoxyProxy。 至 于 其 
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他 的 浏览 器 ， 就 干脆 将 系统 代理 设置 成 127.0.0.1， 然 后 将 所 有 浏览 器 设置 成 使 用 系统 代 
理 好 了 。 

打 来 浏览 器 ， 设 置 好 代理 ， 然 后 刷新 登录 后 的 目标 网 页 。BurpSuite 将 得 到 数据 ， 
如 图 7-28 所 示 。 
































图 7-28 BurpSuite 获取 headers 


主要 是 获取 Cookie 和 User-Agent 的 数据 。 将 这 个 Raw 标签 内 的 所 有 数据 复制 到 文本 文 
件 headersRaw.txt 中 备用 。 

这 两 种 获取 headersRaw.txt 文件 的 方法 任 选 一 种 都 可 以 ， 然 后 为 它 写 一 个 程序 ， 将 所 需 
的 数据 按照 所 需 的 格式 导出 来 。 打 开 Eclipse， 创 建 PyDev Project 项 目 getBulletin ， 将 
headersRaw.txt 文件 复制 到 getBulletin 项 目下 ， 并 在 项 目下 创建 一 个 名 为 getHeadersFromFile 
的 pyDev Modules. 


【示例 7-2] getHeaders.py 的 内 容 如 下 : 
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测试 getHeadersFromeFile.py， 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 如 图 7-29 所 








FT 
» B) getHeadersFromFie.py 4 Created on 2016+5eele+ 
headercRaw oe 5 

prene 5 Gouthor: thing hstkingShotmciL. com 











Eeu 105 def Setesders (filename) 

E heloPython n headers = [] 

D MecharizeAnd8Bec4 headerList ~ ["User Agent", 'coohie’] 
paras with open (fileNeme, 

newss ee 
qidianBS4 nome, value = Line.split('", 1) 


Gres 1f nane in headertist: 


1D winningNum8S4 headers .appenc( (name. strip(), value.strip())) 


main": 
Headers = getHeaders( ‘heacershon. txt") 
print headers 











图 7-29 run getHeaders.py 


已 经 将 Cookie 和 User-Agent 过 滤 出 来 并 按照 格式 排列 好 了 ， 最 后 所 得 到 的 headers 是 一 
个 包含 了 2 个 元 组 的 列表 。 


7.4.4 使 用 Cookie 登录 获取 数据 
获取 音 悦 台 网 站 个 人 站 内 公告 的 充分 条 件 已 经 具备 了 。 下 面 开始 使 用 Mechanize 和 bs4 
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来 获取 个 人 公告 数据 。 

打开 Eclipse， 进 入 刚 建立 的 getBulletin 项 目 中 ， 将 以 前 项 目 中 使 用 的 mylog.py 复制 到 
getBulletin 项 目下 ， 并 在 项 目 中 创建 一 个 新 的 PyDev Module ， 文 件 名 为 
getYinyuetaiBulletin.py。 


【示例 7-3 】getYinyuetaiBulletin.py 的 内 容 如 下 : 





Python 网 络 拒 虫 实战 有 


单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 如 图 7-30 所 示 。 








St “ 口 | 日 grwiweeipulein 22 | E] getHeadersFromFle 
46 self.log.info( ‘beging run sp 
- items = [] 

"Š pan teest sf petResponsContent (self. url) 

3 bulletins 4 soup = BeautifulSoup(responsecontent, 
B getHeadersFromfile.py | °° fees = soup. Find alco attrse{ = 
国 getVinyuetaiBulletin.iog fon tag: 30 ites 
E) getyinyuetaiBulletin py 
E headersRawad 


items append (i 
B miles Py 56 self. pipelines (items) 
A File 57 
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和 7-30” 疏 虫 抓 取 的 公告 
已 经 成 功 地 获取 了 音 悦 台 的 个 人 公告 ， 如 图 7-31 所 示 。 


fa CŒ D iyinyuetai.com/news/bulletin 


http://www. yinyuetai.com/apps/mobile 


8 月 7 日 StarTV 狂 字 直 播 B.A_P 宇 可 党 

【驻守 】8| Star Ver BREE. AP 
BE~ 还 有 在 现场 也 看 不 到 的 台 前 幕后 各 种 福 : 
见 :http://feature yinyuetai.com/bap 














731 目标 网 页 上 的 公告 


与 网 站 上 的 个 人 公告 比较 一 下 ， 完 全 一 样 ， 爬 虫 没 有 问题 。Mechanize 使 用 Cookie & 
K, KRI Cookie 的 生存 期 问题 ， 算 是 个 非常 好 的 办 法 ， 要 比 urllib2 模块 模拟 浏览 器 要 方便 
得 多 。 
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Mechanize 不 是 朴 虫 ， 它 不 是 得 到 爬虫 结果 的 充 要 条 件 ， 但 在 某 些 时 候 比 朴 虫 更 加 重 
要 。 毕 竟 疏 虫 过 滤 的 来 源 数据 要 靠 Mechanize 来 获取 。 大 多 数 时候 的 确 可 以 用 别 的 模块 来 蔡 
代 Mechanize， 这 样 一 来 过 程 就 未 免 有 些 复 杂 了 。 虽 然 疏 虫 程序 追求 的 只 是 结果 ， 过 程 是 否 
繁杂 对 结果 没有 影响 ， 但 能 用 简单 的 模块 解决 问题 就 没 必要 用 复杂 的 方法 。 
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Python 网 络 爬 虫 中 最 麻烦 的 不 是 那些 需要 登录 才能 获取 数据 的 网 站 ， 而 是 那些 通过 
JavaScript 获取 数据 的 站 点 。Python 对 JavaScript 的 支持 不 太 好 。 想 用 Python 获取 网 站 中 
JavaScript 返回 的 数据 ， 唯 一 的 方法 就 是 模拟 浏览 器 了 。 这 个 模拟 浏览 器 跟 Mechanize 模块 稍 
有 不 同 ，Mechanize 模块 并 不 支持 JavaScript， 所 以 这 里 需要 一 款 可 以 模拟 真实 浏览 器 的 模 
块 Selenium 模块 。 








安装 Selenium 模块 


Selenium 是 一 套 完 整 的 Web 应 用 程序 测试 系统 ， 它 包含 了 测试 的 录制 (Selenium 
IDE) 、 编 写 及 运行 〈Selenium Remote Control) 和 测试 的 并 行 处 理 (Selenium Grid) 。 
Selenium 的 核心 Selenium Core 基于 JsUnit， 完 全 由 JavaScript 编写 ， 因 此 可 运行 于 任何 支持 
JavaScript 的 浏览 器 上 


8.1.1 Windows 下 安装 Selenium 模块 
在 Windows 中 安装 Selenium 模块 还 是 采用 最 简单 的 pip 安装 ， 执 行 命令 : 
pip install selenium 


执行 结果 如 图 8-1 所 示 。 


RAR 


fc: users king 





图 8-1 Windows 安装 Selenium 


Python MERER 


Windows 中 安装 Selenium 完毕 ， 可 以 直接 使 用 了 。 


8.1.2 Linux 下 安装 Selenium 模块 
在 Linux 中 安装 软件 尽 可 能 地 使 用 apt-get， 这 样 便于 管理 软件 。 执 行 命令 : 
| apt-get install python-selenium 9 


执行 结果 如 图 8-2 所 示 。 


Last login: Wed Sep 7 01:00:57 2016 from 192.168.2.99 
|king@debian:~$ su 
ka 


码 : 
PRE OTR. .. EA 
读 取 状态 信息 ... 完成 


python-seleni: 


pen o TRAE, 新 安装 了 1 TRAD, RMR o 个 软件 包 ， 有 o 个 软件 包 未 被 升级 


REFR 74.1 xs 的 软件 包 
外 压缩 后 会 消耗 掉 497 kx3 的 额外 空间 。 
获取 : 1 netp://mirrors.163.com/debian/ jessie-backports/main python-selenium all 
2.48. ep [74.1 kB] 
， 耗 时 OF (351 kB/s) 


AREER 3 94130 个 文件 和 目录 。 ) 
../python-selenium_2.48.0+dfsg1-2-bpo8+1_all.deb ... 
正在 解 包 python-selenium (2.48-0+dfsg1-2-bpos+1) ... 
正在 设置 python-selenium (2.48.0+dfsgi-2~bpo8+1) ... 
root@debian:/home/king# exit 


图 8-2 Linux 安装 Selenium 





Linux 中 安装 Selenium 完毕 。 


3.2 浏览 器 选择 


在 编写 Python WEKE, EHE] Selenium 的 Webdriver。Selenium.Webdrive 不 可 能 
支持 所 有 的 浏览 器 ， 也 没 必 要 支持 所 有 的 浏览 器 。 实 际 上 目前 流行 的 浏览 器 核心 也 就 是 那么 
几 种 。 先 看 看 Selenium.Webdriver 支持 哪 几 种 浏览 器 。 


8.2.1 Webdriver 支持 列表 


查看 模块 的 功能 ， 最 简单 也 是 最 方便 的 方法 就 是 直接 使 用 help 命令 。 打 开 cmd.exe 工 
具 ， 执 行 命令 : 
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执行 结果 如 图 8-3 所 示 。 


PACKAGE CONTENTS 
android (package? 
blackberry (package 
chrome <package> 
common <package> 
edge “package? 
firefox (package) 
ie <package> 
opera <package> 


phantomjs (package? 
remote <package> 
safari (package 
support Cp 





图 8-3 webdriver 支 持 列表 

在 以 上 列表 中 ，android 和 blackberry 是 移动 端的 浏览 器 ， 可 以 先 去 掉 。 移 动 端的 浏览 器 
虽然 也 支持 JavaScript， 但 跟 PC 端 浏览 器 根本 是 两 回 事 。Common 和 support 也 可 以 先 去 
掉 ， 剩 下 的 只 有 Chrome, Edge, Firefox, IE, Opera, Phantomjs 和 Safari 了 。Chrome、 
Dege, Firefox, IE, Opera, Safari 比较 常见 ， 而 PhantomJS 则 有 些 名 不 见 经 传 。 

PhantomJS 是 一 个 基于 WebKit 的 服务 器 端 JavaScript API。 它 全 面 支持 Web 而 不 需 浏 览 
器 支持 ， 其 快速 、 原 生 支 持 各 种 Web 标准 : DOM 处 理 、CSS 选择 器 、JSON、Canvas 和 
SVG。 PhantomJS 可 以 用 于 页 面 自动 化 、 网 络 监测 、 网 页 截屏 ， 以 及 无 界面 测试 等 。 

无 界面 ， 则 意味 着 开销 小 ， 也 意味 着 速度 快 。 网 上 有 牛人 测试 过 ， 使 用 Selenium 调用 上 
面 的 浏览 器 ， 速 度 前 三 甲 分 别 是 PhantomJS、Chrome 和 IE (remote 调用 HtmlUnit 速度 才 是 
最 快 的 ， 但 HtmlUnit 对 JavaScript 的 支持 不 太 好 ) ， 开 销 小 、 速 度 快 对 JavaScript 的 支持 也 
不 错 。 唯 一 的 缺点 是 没有 GUI， 但 在 服务 器 下 运行 程序 时 ， 这 又 成 了 优点 。 所 以 无 须 犹 豫 ， 
就 选 PhantomJS Y» Hb, CEMA JavaScript 才能 返回 数据 的 网 站 时 ， 没 有 比 Selenium 和 
PhantomJS 更 适合 的 组 合 了 。 


8.2.2 Windows 下 安装 PhantomJS 


PhantomJS 的 官网 主页 是 http://phantomjs.org/。 在 浏览 器 中 打开 主页 ， 单 击 Download 
V2.1 按钮 进入 下 载 页 面 ， 如 图 8-4 所 示 。 
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SOURCE CODE DOCUMENTATION API 


Full web stack 
No browser required 


Phantoms is a headless WebKit scriptable with a Ja 
native support fi s 
and SVG 


FEED Get started 


Community: a Read the release notes B Join the mailing list 


Phantom]S is an optimal solution 


HEADLESS WEBSITE TESTING SCREEN CAPTURE PAGE AUTOMATION 
Run functional tests with Programmatically capture web ‘Access and manipulate webpages 





图 8-4 PhantomJS 官网 主页 
进入 下 载 页 面 后 ， 选 择 Windows 版 本 的 PhantomJS 下 载 软件 ， 如 图 8-5 所 示 。 







c phantomjs.org/d 


SOURCE CODE DOCUMENTA 


Please take a moment to improve this document with anything that could be usefull 


Documentation Downl 0 
Get Started 
Note There is no need to ask when a binary package f| 

















D Download 
© Build packagers are fully aware of every release and they gi 
>) Releases available 

D Release Names 

D REP Windows 

Learn Download phantomjs-2.1.1-windows.zip (17.4 MB) a 

z Er T kst j s The executable p s ready to use. 

D Screen Capture 

D Network Monitoring Note: For this static build, the binary is self-containe| 


D Page Automation 
D Inter Process Communicat 
D Command Line Interface 


a fresh install of Windows Vista or later versions. Tha 
any other librarie 


Mac OS X 
Get Help 


Download phantomijs-2.1.1-macosx.zip (16.4 MB) and 





D Troubleshooting 
Q 


图 8-5 F# Windows 版 本 PhantomJS 
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因为 未 知 的 原因 ， 直 接 用 浏览 器 下 载 PhantomJS 速度 极 慢 。 有 时 根本 就 没 反 应 ， 建 议 使 
用 迅雷 下 载 PhantomJS。 迅 雷 上 有 用 户 曾 下 载 过 PhantomJS 后 ， 后 面 的 迅雷 用 户 再 次 下 载 速 
度 就 很 快 了 。 

下 载 完成 后 ， 解 压 压缩 包 ， 然 后 将 exe 文件 加 入 到 系统 路 径 中 就 可 以 了 。 重 新 设置 系统 
路 径 是 很 麻烦 的 事情 。 还 记得 安装 Python 2.7 的 过 程 吗 ? 安装 程序 已 自动 将 Python 2.7 的 路 
径 加 入 到 了 系统 路 径 中 了 ， 反 正 PhantomJS 也 是 配合 Python 使 用 的 ， 直 接 将 解压 后 的 
PhtomJS.exe 复制 到 Python 2.7 的 目录 中 就 可 以 了 ， 如 图 8-6 所 示 。 


O IAS SERO BRIN) 帮助 (H) 


Hobe ee ez. 


大 小 Baer BE 
see 
[F phantomjs.exe 18,587,648 18,137,035 应 用 程序 








GO > HAN » sie (0) » Program Files » python27 » 
XHA SAE EEV IAM) 帮助 (H) 
gar namer RET FRAR 














请 a Dils Doc 
B TE | | Rie | a 
mam 
s ji include lib 
2 anor | jj xox }| tx 
©] OneDrive 
Scripts | selenium 
man | | 文件 交 | 文件 实 
3s LICENSE.txt 
Tools x 
Bwa i 文件 交 | | SA 
=) BR — 
Bsr z E python.exe 
7 ant is a headless Wel ġ 2015/12/5 20:41 
a) RETE 27.5 KB 
aii qtconf README.txt 
coni h 7 
Asna CONF 文件 文本 文档 
B king 95 L 55.2 KB 
wH 
& as 
CE i 





8-6 Windows 设置 PhantomJS 环境 
在 Python 环境 中 测试 一 下 ， 如 图 8-7 所 示 。 
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有 <c> 2089 Microsoft Corporation。 保 留 所 有 权利 。 


:sers\king>python 
ython 2.7.11 (v2.7.11:6dib6a68f775. Dec 5 2815, 29:49:38》 [MSC v.1588 64 bit < 
MD642] on win32 








图 8-7 Windows 中 测试 PhantomJS 环境 
Windows 下 的 PhantomJS 环境 已 配置 好 ， 可 以 直接 使 用 了 。 


8.2.3 Linux 下 安装 PhantomJS 
还 是 打开 PhantomJS 官网 的 下 载 页 面 ， 选 择 合适 的 版 本 ， 使 用 迅雷 下 载 ， 如 图 8-8 所 













不 。 

Other libraries. 

D Examples 

D Best Practices Linux 64-bit 

o Ti Tri 

a Supported Web Standards b2.3 MB) and extra 
Bz 5 

H ee e Note: For this static build, the binary is self-contdined. There Is no r 

WebKit, or any other libraries. It however still relfes on Fontconfig (t 

Contribute libfontconfig, depending on the distribution. The system musi 

D Contributing 

D Source Code Linux 32-bit 

D Test Suite 

D Release Preparation Download phantomjs-2.1.1-linux-i686,tar.bz2 (23,0 MB) and extract 
Crash Reporting 

© Bug Reporting 


Note: For this static build, the binary is self-contained. There is no ri 
WebKit, or any other libraries. It however still relies on Fontconfig (tl 
libfontconfig, depending on the distribution), The system must 
GLIBC 2.7. 


# king@debian: ~ 


[Using username "king". 
Authenticating with public key "imported-openssh-key" 


















[The programs included with the Debian GNU/Linux system are f 
the exact distribution terms for each program are described 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the eq 
permitted by applicable law. 
Last login: Wed Sep 7 10:26:26 2016 from 192.168.2.99 


Linux debian 3 1 SMP Debian 3.16.7-ckt25-2+deb' 








king@debian: 





[ 





8-8 下 载 Linux 版 本 PhantomJS 


将 下 载 好 的 压缩 文件 上 传 到 Linux 后 解压 缩 ， 然 后 将 可 执行 文件 复制 到 系统 路 径 
/usr/local/bin X FH F (Linux 的 系统 路 径 有 很 多 ， 随 意 选 一 个 都 可 以 )。 打 开 Putty， 连 接 到 
Linux 上 ， 执 行 命令 : 

tar jxvf phantomjs-2.1.1-linux-x86 64.tar.bz2 
cp phantomjs-2.1.1-linux-x86 64/bin/phantomjs /usr/local/bin/ 
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ls -1 /usr/local/bin/ 
执行 结果 如 图 8-9 所 示 。 


linux-x86_64/examples/features.js 
linux-x86_64/examples/netsniff.js 
linux-x86_64/examples/walk_through_frames.js 
linux-x86_64/examples/printheaderfooter.js 
.1-linux-x86_64/examples/responsive-screenshot.js 
-1-linux-x86_64/examples/countdown.js 
.1-linux-x86_64/examples/detectsniff.js 
linux-x86_64/examples/simpleserver.js 
linux-x86_64/examples/postjson.js 
linux-x86_64/examples/run-jasmine2.js 
linux-x86_64/examples/run-jasmine.js 
.1-linux-x86_64/README .md 
.1-linux-x86_64/LICENSE .BSD 
linux-x86_64/bin/ 
linux-x86_64/bin/phantomjs 
linux-x86_64/third-party.txt 
linux-x86_64/ChangeLog 


root @debian: /tmp: 

root @debian: /tmp: 

总 用 量 66344 

-rwxr-xr-x 1 root staff 67932064 9 月 7 10:46 phantomjs 
root@debian: /tmp# 





8-9 Linux 中 设置 PhantomJS 环境 
在 Python 环境 中 测试 一 下 ， 如 图 8-10 所 示 。 


king@debian: /tmp$ python 

Python 2.7.9 (default, Mar 1 2015, 12:57:24) 

[GCC 4.9.2] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 


driver = webdriver. Phantoms O) 





图 8-10 Linux 中 测试 PhantomJS 环境 
Linux 下 的 PhantomJS 环境 已 配置 好 ， 可 以 直接 使 用 了 。 


8 ° 3 Selenium&PhantomJS 抓 取 数据 


Selenium 和 PhantomJS 配合 ， 可 以 模拟 浏览 器 获取 包括 JavaScript 的 数据 。 问 题 是 本 文 
是 讲 扑 虫 的， 现在 不 单 要 获取 网 站 数据 ， 还 需要 过 滤 出 “有 效 数据 ” 才 行 。 这 里 就 不 用 麻烦 
bs4 了 实际 上 非 要 用 bs4 也 不 是 不 可 以 ) ，Selenium 本 身 就 带 有 一 套 自己 的 定位 过 滤 函 
数 。 它 可 以 很 方便 地 从 网 站 返回 的 数据 中 过 滤 出 所 需 的 “有 效 数 据 ”。 





8.3.1 获取 百度 搜索 结果 

还 是 那 句 老话 ， 想 知道 Python 模块 最 详细 的 用 法 ， 直 接 用 help 函数 就 可 以 了 。 鉴 于 
Selenium.Webdriver 的 help 文件 太 大 ， 分 屏 显 示 又 不 那么 方便 ， 干 脆 将 帮助 文件 保存 到 文件 
中 慢 慢 查看 。 执 行 命令 : 
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E7 一 定 要 加 上 browser.quit(), Fill cmd.exe 在 执行 exit 时 会 无 法 退出 。 


执行 结果 如 图 8-11 所 示 。 


licrosoft Windows [hf 6.1 


$ 6.1.7601] 
BAVATH <c> 2089 Microsoft Corporation。 保 留 所 有 权利 。 


:Msers\king>python 

ython 2.7.11 <v2.7.11:6d1b6a68f775, Dec 5 2915。29:49:39》 [MSC v-1599 64 bit < 
D641 on win32 

ype "help", "copyright", “credits” or “license” for more information. 

>>> from selenium import webdriver 


‘sys.stdout = opent’ browsertielp.txt’, uy 
>>> sys.stdout .close<> 











[find element (self, by= id, value=None) | 
"z Meo ses a AS eTement_by * methods. 


:Usage: 
Use the corresponding find_element_by_* instead of this. 


irtype: WebElement 
find_element_by_class_name(self, name, 


:Args: 
- name: The class name of the element to find. 


Usage: 
driver. find_element_by_class_name(’ foo’ ) 


find_element_by_css_selector(self, css_selector) 
rer or 








图 8-11 获取 help 文件 


想 获取 “有 效 信息 ”， 第 一 步 当然 是 网 站 获取 返回 数据 ， 第 二 步 就 是 定位 “有 效 数 据 
的 位 置 ， 第 三 步 就 是 从 定位 中 获取 “有 效 数 据 ”。 
就 以 百度 搜索 为 例 ， 使 用 百度 搜索 “Python Selenium”， 并 保存 第 一 页 搜索 结果 的 标题 


278 


第 8 章 Selenium 模拟 浏览 器 





和 链接 。 从 服务 器 返回 数据 ， 由 PhantomJS 负责 ， 获 取 返 回 的 数据 用 Selenium.Webdriver A 
带 的 方法 page_source， 例 如 : 


有 两 种 方法 可 以 得 到 搜索 结果 页 面 。 第 一 种 ， 百 度 主页 还 是 使 用 get 方式 上 传 request。 
这 里 可 以 先 找 个 浏览 器 ， 打 开 百 度 后 搜索 关键 词 。 再 把 返回 来 的 搜索 结果 的 URL 保存 下 来 用 
Selenium&PhantomJS 打开 ， 再 获取 返回 的 数据 。 第 二 种 ， 直 接 用 Selenium&PhantomJS 打开 
百度 的 主页 ， 然 后 模拟 搜索 关键 词 。 直 接 从 Selenium&PhantomJS 中 返回 数据 。 这 里 使 用 第 
二 种 方法 ， 可 以 很 清楚 地 看 到 Selenium&PhantomJS 获取 数据 的 过 程 。 

第 一 步 获取 搜 索 结 果 。 打 开 cmd.exe， 准 备 好 环境 。 执 行 命令 : 





执行 如 图 8-12 所 示 。 


icrosoft Windows [MÆ 
版 


权 所 有 <o> 2009 Rt es 保留 所 有 权利 。 


+ sers\king>pyt) 
ython 2.7.11 Cu2. ce 11:6d1b6a68F775, Dec 5 2015, 28:48:30) [MSC v-1598 64 bit < 
PMD64>1 on win32 


“credits” or “license” for more information. 


du.com’> 





812 ”模拟 百度 搜索 


这 里 要 关注 一 个 函数 implicitly_wait()。 使 用 Selenium&PhantomJS 最 大 的 优势 是 支持 
JavaScript， 而 PhantomJS 浏览 器 解释 JavaScript 是 需要 时 间 的 。 这 个 时 间 是 多 少 并 不 好 确 
定 ， 当 然 可 以 用 time.sleep0 〇 强行 休眠 等 待 一 个 固定 时 间 。 可 这 个 固定 的 时 间 定 长 了 ， 浪 费时 
间 ; 定 短 了 ， 又 没 能 完整 地 解释 JavaScript。Implicitly_wait 函数 则 完美 地 解决 了 这 个 问题 ， 
给 implicitly_wait 一 个 时 间 参 数 。Implicitly_wait 会 智能 等 待 ， 只 要 解释 完成 了 就 进行 下 一 
步 ， 完 全 没有 浪费 时 间 。 下 面 从 网 页 的 框架 中 选取 表单 框 ， 并 输入 搜索 的 关键 词 ， 完 成 搜索 
的 过 程 。 
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8.3.2 ”获取 搜索 结果 

第 二 步 定位 表单 框架 或 “有 效 数据 ”位 置 ， 可 以 用 import 导入 bs4 来 完成 ， 也 可 以 用 
Selenium 本 身 自 带 的 函数 来 完成 。Selenium 本 身 给 出 了 18 个 函数 ， 总 共 8 种 方法 从 返回 数 
据 中 定位 “有 效 数 据 ” 位 置 。 这 些 函 数 分 别 是 : 











这 18 个 函数 前 面 的 9 个 带 element 的 函数 将 返回 第 一 个 符合 参数 要 求 的 element， 后 面 9 
个 带 elements 的 函数 将 返回 一 个 列表 ， 列 表 中 包含 所 有 符合 参数 要 求 的 element。 命 名 是 9 个 
函数 ， 为 什么 只 有 8 种 方法 呢 ? 上 面 函 数 中 ， 不 带 by 的 函数 ， 配 合 参 数 可 以 替代 其 他 的 函 
数 。 例 如 : find_element(by='id，value='abc) 就 可 以 替代 find_element_ by id(abc) 。 同 理 
find_elements(by='id', value='abc) 也 可 以 替代 find_elements_by_id(‘abc'). 

这 8 种 定位 方法 组 合 应 用 ， 灵 活 配合 ， 可 以 获取 定位 数据 中 的 任何 位 置 。 个 人 觉得 ， 在 
使 用 浏览 器 请 求 数 据 时 ， 用 find element by _ name 、 find element by_class_name 、 
find_element_ by id find_element_by_tag name 会 比较 方便 。 一 般 的 表单 、 元 素 都 会 有 
name、class、id， 这 样 定位 会 比较 方便 。 如 果 仅 仅 是 为 了 获取 “有 效 数 据 ” 的 位 置 ， 那 还 是 
find_element_by_xpath 和 find_element_by_css 比较 方便 。 强 烈 推 荐 fnd_element by_xpath， 真 
的 是 超级 方便 。 

先 定位 文本 框 ， 输 入 搜索 关键 词 并 向 服务 器 发 送 数据 。 在 Chrome 中 打开 百度 主页 ， 查 
看 源 代码 页 面 〈 如 果 想 全 程 无 GUI， 也 可 以 直接 在 Selenium 中 用 page_source 获取 页 面 代 
码 ， 保 存 后 再 慢 慢 地 搜索 ， 不 过 这 样 就 比较 麻烦 了 ) 。 在 源 代码 页 面 搜索 type=text， 也 就 是 
查找 页 面 使 用 的 文本 框 ， 搜 索 结果 如 图 8-13 所 示 。 
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图 8-13 搜索 文本 框 位 置 


从 图 8-13 可 以 看 出 文本 框 里 有 class. name, id 属性 ， 可 以 使 用 
find_element by_class_name 、find_element_ by id 、find_element by_name 来 定位 。 执 行 命 


a: 











回 到 Chorme 中 百度 源 代 码 页 面 ， 搜 索 type=submit， 定 位 submit 按键 位 置 ， 如 图 8-14 
所 示 。 
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8-14 搜索 submit 按键 


从 图 8-14 可 看 出 ，submit 按键 有 id, class 属性 ， 可 以 用 find_element_by class_name 和 
find_element_by_id 定位 。 执 行 命令 : 
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执行 结果 如 图 8-15 所 示 。 


icrosoft Windows 【从 本 76011 
RILMA <c> 2089 Microsoft Corporation。 保 留 所 有 权利 。 


:sers \king>python 
ython 2.7.11 <v2.2.11:6dib6a6BF775. Dec 5 2615, 20:40:38) [MSC v-1588 64 bit < 


IMD64>1 on win32 
opyright", “credits” or “license” for more information. 


extElement = browser.f ind_elenent_by_class_nane<’s_ipt’> 
extElenent .send_keys<’ Python selenium’ > 





图 8-15 ”获取 搜索 结果 
此 时 browser 已 经 获取 到 了 搜索 的 结果 了 。 


8.3.3 ”获取 有 效 数据 位 置 

第 三 步 获 取 “ 有 效 数据 ”位 置 或 者 说 是 element。 先 定位 搜索 结果 的 标题 和 链接 。 回 到 
Chrome 浏览 器 ， 在 百度 中 搜索 Pyton selenium， 在 搜索 结果 页 面 中 查看 源 代码 。 因 为 Chrome 
浏览 器 和 PhantomJS 浏览 器 返回 的 结果 可 能 有 所 不 同 ， 这 里 只 需要 知道 返回 结果 的 大 致 结 
构 ， 不 需要 完全 一 致 。Chrome 浏览 器 返回 结果 如 图 8-16 所 示 。 
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8-16 Chrome 浏览 器 搜索 结果 
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href = “http://w. baidu. com/link?url=! 
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pwL3LQhy_TCHO3KPmsxbf1Wm65r O8m3woxgDRZFMBQSYYDUSsirfZK” target="_blank” class="m" MH iFILM </a></div> 
<div class="c-abstract c-abstract-en”><emSelenium</em> <em>Python</em> Bindings latest 1. 
Installation 2. Getting Started 3. Navigating 4. Locating Elements 5. Waits 6. Page Objects 7. 
WebDriver API 8...</div><div class="f13"><a target="_blank” href="http://www. baidu. com/link? 
url: ty Cailor] EER PEU 
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图 8-17 搜索 结果 定位 
在 这 里 发 现 了 一 个 比较 特别 的 属性 class="c-tools"， 在 代码 中 查找 这 个 属性 ， 如 图 8-18 所 示 。 
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8-18 422% class 属性 


发 现 共 有 10 个 结果 ， 并 且 第 二 个 搜索 结果 的 标题 和 搜索 页 面 中 第 二 个 搜索 结果 相同 ， 再 
数 一 数 百度 搜索 结果 页 面 中 总 共 10 个 结果 。 可 以 确定 所 有 的 搜索 结果 中 都 包含 有 class 
tools" 标 签 ， 可 以 用 find_elements_by_class_name 定位 所 有 的 搜索 结果 了 。 执 行 命令 : 

















c- 


执行 结果 如 图 8-19 所 示 。 
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n 网 络 礁 虫 实战 





画 CWindows\system32\cemd.exe - python 
-o 





ython 2.7.11 <v2.7.11:6d1b6a68f775, Dec 5 2015, 20:40:30) [MSC v.1508 64 bit ¢ 
MD642] on win32 

ype "help", "copyright", “credits” or “license” for more information. 
>> fron selenium inport webdriver 

>> brouser = vebdriver.PhantonJSC) 

>> brouser.get(’ https://wwu-baidu.con’ > 

>> brouser. implicitly wait(18> 

>> 

>> 

>> textElement = browser.find_element_by_class_name¢’s_ipt’> 

>> textElement .send_keys<’ Python seleniun’ > 

>> 

>> 

>> submitElenent = browser.find_element_by_id¢’ su’ > 

>> submitElenent .click(> 


>> print browser.title 
Python selenium_ 百 度 搜索 











图 8-19 定位 搜索 结果 


这 里 使 用 的 是 find_elements， 不 是 find_element。 定 位 多 个 结果 时 用 elements. 


一 般 来 说 定位 结果 用 find_element_by_xpath 或 find_element_by_css 比较 方便 ， 但 如 果 结 
果 中 有 特殊 的 属性 ， 用 find_element_by_class_name 也 挺 好 ， 哪 个 方便 就 用 哪 一 个 。 











8.3.4 ”从 位 置 中 获取 有 效 数据 


有 效 数 据 的 位 置 确定 后 ， 如 何 从 位 置 中 过 滤 出 有 效 的 数据 呢 ? 一 般 就 是 获取 element 的 
文字 或 者 获取 Element 中 某 个 属性 值 。Selenium 有 自己 独特 的 方法 ， 分 别 是 : 


回 到 Chrome 浏览 器 搜索 结果 的 源 代码 页 面 ， 如 图 8-20 所 示 。 
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WebDriver API 8...</div><div class="f13"><a target="_blank” href="http: //omw. baidu. com/link? 











url=N2Zv2Gbm-PeGppZ dZCUOF 61 vJE3 jvz0US-LAWBdShKNpc jE 2WD-k1 yk daXZW9xGsj16b£31 2ErCR_pcHZrUeX_” class="c- 
showurl” style="text-decoration:none; "https: i aeaath 。 Arad div 
class="c-tools” : 3 








图 8-20 有 效 数据 
所 需 的 有 效 数 据 就 是 data-tools 属性 的 值 。 执 行 命令 : 
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print valueDic.get (‘title’) .decode (‘utf8’) 
print valueDic.get (‘url’) 


执行 结果 如 图 8-21 所 示 。 












>>> value = resultElenents(81.get_attribute¢’data-tools’> 

>>> valueDic = eval<value> 

>>> print valueDic.get(’ title’) .decode¢? utf8’> 

elenium with Python — Selenium Python Bindings 2 ... 

>>> print valueDic.get¢’url’> 

ttp://uuu. baidu.con/Link?url-6Te@ygsF8h9vDPr¥MI muVf I txjOgMBiBpxGMPxpE1 rcekZgzUt 
?FwulDfBJe03wpTjZKRra39G2Yp_YUeLSa 

>>> z 


8-21 获取 有 效 数 据 


遍历 resultElements 列表 ， 可 以 获取 所 有 搜索 结果 的 title 和 url。 至 此 ， 已 将 
Selenium&PhantomJS 扑 虫 运行 了 了 一遍。 根据 这 个 过 程 可 以 编写 一 个 完整 的 扑 虫 。 











5.4 Selenium&PhantomJS 实战 一 : 获取 代理 


用 Selenium&PhantomJS 完成 的 网 络 爬 虫 ， 最 适合 使 用 的 情形 是 爬 取 有 JavaScript 的 网 
站 ， 但 用 来 仆 其 他 的 站 点 也 一 样 给 力 。 在 Scrapy 疏 虫 中 曾 聆 取 过 代理 服务 器 的 例子 ， 这 里 再 
以 Selenium&PhantomJS 息 取 代理 服务 器 为 示例 ， 比 较 两 者 有 什么 不 同 。 


8.4.1 ”准备 环境 


在 Scrapy 爬虫 中 获取 了 代理 ， 需 要 自行 验证 代理 是 否 可 用 。 这 次 将 在 www.kuaidaili.com 
中 获取 已 经 验证 好 了 的 代理 服务 器 。 打 开 目 标 站 点 主页 ， 如 图 8-22 所 示 。 


€9¢ 











D www.kuaidaili.com 


A neeme , F200 Bsr. Sasmi | a aate] 
ARRE. 购买 代理 。 开放 代理 MEEF MFE (MSN 


为 什么 使 用 快 代理 ? 


我 们 不 同 断 地 运行 着 极其 高 效 、 精 从 的 公 网 代理 收集 系统 ， 每 天 扫 拱 的 代理 数 以 万 计 ， 最 新 出 现 的 代理 总 能 在 第 一 时 间 收 录 .| 
我 们 精确 地 检测 每 一 个 代理 ]p 的 匿名 度 、 史 应 对 间 、 数 据 传 某 速度、 地域 、 运 营 商 ， 平均 每 个 P 每 天 被 检测 上 吾 次 ， 因 此 你 
找到 可 以 正常 工作 的 代理 . 

我 们 提供 了 极其 皇宫 的 代理 策 壬 和 API 控 口 ， 只 为 更 使 乔 迷 提取 - 








mex 142651687 oss: 4328 


免费 高 速 HTTP 代 理 IP 列 表 ( 2016-09-10 ) 
22 





PORT EZE get/ Post 支持 位置 
HTTP, HTTPS GET, POST 
HTTP GET, POST 


222.21096.133 8998 HTTP, HTTPS GET, POST 








图 8-22 目标 主页 
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最 终 需 要 获取 的 有 效 数 据 就 是 代理 服务 器 。 从 图 中 可 以 看 出 网 站 也 给 出 了 API 接口 。 从 
好 的 方面 想 ， 有 现成 的 API 接口 获取 代理 服务 器 会 更 加 方便 ; 但 从 坏 的 方面 考虑 ， 因 为 本 身 
就 有 API BEA, MARAE REARED E T o 

单 击 API 接口 的 链接 查看 一 下 ， 如 图 8-23 所 示 。 





€ > Œ Dwwwkuaidailicom/apidoc/ 





</proxylist> 
</data> 
</result> 


异常 返回 格式 样 例 ; 
<?xml version=“1.0° encoding=“UIF-8° 
<result? 
<code>-1</code> 
asg) 参 数 错 误 </asg> 
<data> 
</date> 
result> 





图 8-23 API 限制 条 件 


还 好 ， 限 制 的 条 件 不 多 ， 无 须 添 加 复杂 的 反扑 虫 。 下 面 准备 息 虫 项 目 环境 ， 打 开 Putty, 
连接 登录 到 Linux， 进 入 疏 虫 项 目 目录 ， 执 行 命令 : 


执行 结果 如 图 8-24 所 示 。 





[Using username "king". a 
thenticating with public key "imported-openssh-key" 


e programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
ermitted by applicable law. 

Last login: Sat Sep 10 21:36:18 2016 from 192.168.2.99 
king@debian:~$ cd code/crawler/ 

king@debian:~/code/crawler$ mkdir seleniumProject 
king@debian:~/code/crawler$ cd seleniumProject/ 
king@debian:~/code/crawler/seleniumProjects [] 





8-24 ”准备 工作 目录 
下 面 就 可 以 在 该 目录 下 编写 息 虫 文件 getProxyFromKuaidaili.py。 
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8.4.2 ERRE 


【示例 8-1] getProxyFromKuaidaili.py 的 代码 如 下 : 





Python MEEK 





按 :wq 保存 结果 ， 再 将 之 前 项 目 中 用 到 过 的 myLog.py 复制 到 当前 目录 下 。 查 看 当前 目 


录 ， 执 行 命令 : 
ee 
执行 结果 如 图 8-25 所 示 。 


king@debian:~/code/crawler/seleniumProject$ 
king@debian:~/code/crawler/seleniumProject$ tree 


E getProxyFromKuaidaili.py 


myLog.py 


0 directories, 2 files 
king@debian:~/code/crawler/seleniumProject$ 





图 8-25 ”显示 目录 文件 
运行 息 虫 文件 ， 执 行 命令 : 
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执行 结果 如 图 8-26 所 示 。 


02,518 INFO add proxy 114.227.56.8:8088 to list | 
03,266 INFO add proxy 163.125.158.72:9999 to lis 


704,018 INFO add proxy 111.13.7.42 
204,750 INFO add proxy 121.229.194.180:808 to 11s 


add proxy 103.59.176.9:8080 to list 
add proxy 36.47.198.31:8998 to list 
add proxy 113.79.35.7:8118 


add proxy 115.29.170.58:8118 to list 
add all proxy to proxy.txt 
king@debian:~/code/crawler/seleniumProject$ tree 


md gecProxyFroakuaidaili. log 





广 myLog.pyc 
[一 proxy.cxe 


lo directories, 6 files 
king@debian:~/code/crawler/seleniumProjects |] 


图 8-26 TER 
这 里 的 getProxyFromKuaidaili.log 是 用 户 定义 的 日 志文 件 。Proxy.txt 是 最 终 得 到 的 结果 


pe 


Ghostdriver.log 是 运行 PhantomJS 的 日 志文 件 。 





8.4.3 ”代码 解释 


示例 8-1 这 个 息 虫 程序 本 身 并 不 复杂 。 第 6~7 行 是 导入 所 需 的 模块 ， 其 中 myLog 模块 是 
自 定 义 模块 ， 也 就 是 后 来 复制 到 当前 目录 的 myLog.py 文件 。 

第 10~17 行 定义 了 一 个 Item 类 。 这 个 类 的 作用 是 为 了 方便 装载 怜 虫 获取 的 数据 ， 基 本 包 
含 了 网 页 中 的 所 有 项 。 

第 19~67 行 定义 了 一 个 从 kuaidili 站 点 中 获取 proxy 的 类 。 这 个 类 包含 了 3 个 类 函数 。 
getUrls 函数 用 于 返回 一 个 列表 ， 这 个 列表 包含 了 所 有 有 效 数据 的 网 页 地 址 。getProxyList PA 
数 ， 从 网 页 中 获取 有 效 数据 ， 并 保存 到 一 个 列表 中 。 最 后 的 saveFile 函数 ， 将 所 有 列表 中 的 
数据 保存 到 文件 中 。 


8 ° 5 Selenium&PhantomJS 实战 二 : SEEE 


Selenium&PhantomJS 可 以 说 专 为 JavaScript 而 生 。 从 前 面 的 项 目 中 已 经 熟悉 了 
Selenium&PhantomJS 的 用 法 。 下 面 开 始 用 Selenium&PhantomJS 获取 JavaScript 返回 的 数 
据 。 一 般 来 说 ， 网 站 上 用 JavaScript 返回 数据 ， 主 要 是 为 了 美观 ， 第 二 目的 估计 就 是 为 了 增 
加 疏 虫 的 难度 。 这 里 只 是 讨论 技术 实现 的 手段 ， 请 遵循 “不 作恶 ”原则 ， 不 要 侵犯 他 人 的 知 
识 产权 。 





289 


Python 网 络 怎 虫 实战 


8.5.1 准备 环境 
一 般 来 说 在 线 看 漫画 的 网 站 都 会 使 用 JavaScript 来 返回 页 面 。 在 Chrome 中 打开 百度 搜 

索 ， 搜 索 在 线 漫 画 ， 如 图 8-27 所 示 。 

€ > C 9 https//www.baidu.com/: 


Bait 在 线 漫画 


















i$ RB ffikuimao: 
comic kukudm.com! ~ - EERE - 34 条 评价 














图 8-27 寻找 目标 站 点 


第 一 个 搜索 结果 已 经 很 明确 地 提出 了 “禁止 下 载 ”， 那 就 算 了 ， 就 找 第 二 个 好 了 。 打 
第 二 个 搜索 结果 ， 如 图 8-28 所 示 。 














© Dwww.lkkk.com 
RUZ KADRE 


原创 精品 DEAN RERS DEER HIRIT | RR WESER 
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任 选 一 个 目标 都 可 以 ， 这 里 选取 第 
mace 


Raid ae: 














图 8-29 ”爬虫 起 始 页 面 


这 个 扑 虫 将 在 Windows 下 使 用 Eclipse 完成 。 打 开 Eclipse， 新 建 PyDev Project， 项 目 名 
为 getCartoon 。 


8.5.2 ERRE 
在 getCartoon 项 目 中 创建 一 个 PyDev Module, #44 cartoonl.py. 
【示例 8-2] cartoon1.py 的 代码 如 下 : 


#!/usr/bin/evn python 
#-*~ coding: utf-8 -*- 


Created on 2016 年 9 月 10 日 


a 


@author: hstking hstking@hotmail.com 


wow DMIADHSwWNhd 


from selenium import webdriver 
from mylog import MyLog as mylog 
import os 

import time 


RPR PP p 
BWNHRO 


class GetCartoon (object) : 


15 def _ init (self): 

16 self.startUrl = u'http://www.1kkk.com/ch1-406302/' 
aly self.log = mylog() 

18 self.browser = self.getBrowser() 
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Python 网 络 仆 虫 实战 


再 将 之 前 项 目 中 的 mylog.py 复制 到 项 目 中 Linux 中 复制 的 是 myLog.py， 实 际 上 是 一 个 
文件 ， 只 不 过 Windows 下 不 区 分 大 小 写 而 已 )。 单 击 Eclipse 图 标 栏 的 运行 图 标 ， 执 行 结果 如 
图 8-30 所 示 。 
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#88 Selenium ## 






















Fle Edit Source Refactoring Navigate Search Project Pydey Run Window Help 


oe PGF OF 8S Sra Quick! 


IE PyDev Package.. 








= D Betton z 





< j astCartoon) 35 from selenium import webdriver 
EE a from mylog import MyLog as nylog 
上 ET] 11 inport os 
B) caeoonlpy DRE 
È ghostdriverlog 
B myogpy 
@ DAProgram Files\python 
© baiduBs4 
È browserSpeed 


class GetCartoon(object): 
def _ init__(self) 
elf. startUrl = u'hetp://mw.tekb.com/cht-406302) 
self. log = aylog() 
self.browser = seUf.getBrowser() 
3elf.sevetertoon (self browser) 
Sl oreo 











G getButetin a 
1 helloPython n 

1D MechanizeArdBs4 235 def getBrouser(self): 

© movess4 Browser = wodr ver Phantoms 0 

ee browser get (self.starturl) 

1 seliomtauew ne et ere 


23 browser. implicitly wait(28) 


1 wirningNum@s 7 
1B Yinyuaraias4 
© Console & P: ax %% al 


rawler\bedProjectigetCartoon\cattoont| 
king save img 25.pnE 





-<terminated > E\save\eyn 
2016-09-11 20:13:58,088 









save img 26.png 





e ing sccess 


[eB 1 item colected 


8-30 ”运行 仆 虫 getCartoon1 
日 志文 件 显示 操作 成 功 。 项 目 中 也 得 到 了 漫画 的 目录 。 打 开 下 载 的 漫画 目录 ， 如 图 8-31 





IAM 帮助 (H) 
共享 ” BoE 。 ”新 建文 件 闪 








图 8-31 获取 的 结果 
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最 终 保 存 的 结果 不 是 单纯 的 漫画 ， 而 是 整个 页 面 的 截图 。 


8.5.3 ”代码 解释 

示例 8-2 XM, A 60 多 行 。 第 9~12 行 是 导入 所 需 的 模块 。 第 14~58 行 是 爬虫 
类 ， 这 个 怜 虫 类 只 有 3 个 类 函数 。 

第 22~29 行 是 类 函数 getBrowser 的 原型 ， 它 的 作用 是 返回 一 个 browser 对 象 。 这 里 稍微 
要 注意 点 的 就 是 browser.implicitly_ wait(20)， 它 的 作用 设 定 了 智能 等 待 的 最 长 时 间 。 

第 31~47 行 是 类 函数 savaCartoon。 这 个 函数 将 从 网 站 中 获取 图 片 ， 并 保存 到 新 建立 的 文 
件 夹 中 。 文 件 夹 的 名 字 是 从 网 页 的 tithe 中 获取 的 。 从 网 页 中 获取 了 这 个 漫画 的 总 页 数 ， 因 为 
这 个 漫画 在 最 后 一 页 (第 26 页 ) 还 是 有 “下 一 页 ”的 按钮 。 没 办 法 通过 是 否 存在 “下 一 页 ” 
按钮 来 确定 是 不 是 最 后 一 页 。 所 以 必须 得 先 获取 这 个 漫画 的 总 页 数 。Seleniuim&PhantomJS 
解释 了 页 面 的 JavaScript， 也 将 解释 后 得 到 的 图 片 显 示 在 浏览 器 上 了 。 但 这 个 站 点 在 防盗 链 上 
做 得 很 到 位 ， 只 要 在 页 面 上 执行 一 次 刷新 操作 ， 网 站 就 判 为 盗 链 ， 显 示 出 防止 盗 链 的 图 片 出 
来 ， 并 且 得 到 的 图 片 链接 地 址 也 无 法 下 载 ， 所 以 最 简单 的 方法 就 是 对 整个 页 面 进行 截图 。 好 
在 Selenium 本 身 就 有 截图 工具 ， 还 算 比 较 方 便 。 另 外 ， 在 NextTag.click() 之 后 使 用 的 并 不 是 
Selenium 的 智能 等 待 implicitly wait， 而 是 time.sleep 。 是 因为 implicitly wait 对 
NextTag.click() 并 不 起 作用 ， 反 而 使 用 time.sleep 的 效果 却 很 不 错 。 

第 49~58 行 是 类 函数 createDir， 作 用 是 创建 一 个 目录 。 为 了 防止 有 同名 的 目录 ， 先 在 函 
数 内 作出 判断 。 

这 个 疏 虫 虽然 将 漫画 全 部 保存 下 来 了 ， 但 也 把 页 面 上 多 余 的 部 分 保存 了 。 略 有 瑕 疯 ， 如 
果 想 追求 完美 ， 也 可 以 通过 其 他 的 模块 将 所 需 的 漫画 裁剪 下 来 。 





8.6 本 章 总 结 


Selenium&PhantomJS 疏 虫 功能 很 强 ， 但 效率 上 并 不 高 。 对 访问 者 限制 不 严格 的 网 站 ， 
般 不 建议 使 用 Selenium&PhantomJS MER. MM AEX Ae JavaScript 返回 有 效 数据 的 网 
站 ，Selenium&PhantomJS 爬虫 效果 还 不 错 ， 也 可 能 是 最 好 的 选择 了 。 


294 


